VibeThinker 팀이 1.5B 모델을 3B로 확장하여 검증 가능한 추론의 한계를 테스트했어요. AIME'26에서 94.3점, LiveCodeBench v6에서 80.2점, IMO-AnswerBench에서 76.4점, IFEval에서 93.4점을 기록했어요. 최신 LeetCode 주간/이주차 콘테스트에서 128개 중 123개의 첫 번째 시도 Python 제출을 통과하며 96.1%의 성공률을 보여줬어요.