연구진은 LLM 추론 능력 향상을 위해 검증기(Verifier)를 활용하는 방법인 테스트-타임 스케일링(TTS)을 제시했어요. Agentic Verifier는 보상 모델링을 다단계, 도구 활용적 의사 결정 과정으로 전환하여 오류 전파와 외부 지식 부족 문제를 해결해요. AgentV-RL은 강화 학습을 통해 검증기가 자체적으로 도구 사용과 내부 추론을 반복하도록 훈련하여, 기존 ORM보다 25.2% 높은 성능을 달성했어요.