연구진은 강화 학습에서 검증 가능한 보상(RLVR)을 활용하여 대규모 언어 모델의 추론 및 에이전트 행동을 향상시키는 방법을 제시했어요.
TRACE는 롤아웃 예산을 효율적으로 할당하여 보상 대비를 높이는 통합 프레임워크로, 프롬프트와 중간 접두사 모두를 고려하여 트리 구조의 롤아웃을 생성해요.
실험 결과, TRACE는 Qwen3-14B Multi-Hop QA 평균 정확도를 경쟁 모델 대비 2.8 포인트 향상시켰으며, 동일한 샘플링 비용으로 효율적인 성능을 보여줬어요.