연구진은 LLM 추론 능력 향상을 위해 구두 감독(Verbal Process Supervision, VPS)이라는 새로운 방법을 제시했어요.
VPS는 더 강력한 모델의 구조화된 자연어 비판을 활용하여 반복적인 생성-비판-수정 과정을 안내하며, GPQA Diamond에서 기존 최고 성능을 능가했어요.
연구 결과, VPS는 AIME 2025에서 약한 액터 구조를 구출하고, Reflexion 및 Self-Consistency@5보다 우수한 성능을 보여주며 비판의 세밀함이 중요한 요소임을 입증했어요.