연구진은 강화 학습에서 검증 가능한 보상(RLVR)을 활용하여 대규모 언어 모델의 추론 및 에이전트 행동을 향상시키는 방법을 제시했어요.
TRACE는 ReAct 스타일의 사고-행동-관찰 단계를 의미적으로 구별되는 노드로 모델링하여 프롬프트 루트에서 턴 레벨 프리픽스까지 롤아웃 예산을 할당하는 트리 롤아웃 할당 프레임워크예요.
TRACE는 고정된 샘플링 예산 내에서 보상 대비를 향상시키며, Qwen3-14B Multi-Hop QA 평균 정확도를 경쟁 모델 대비 2.8 포인트 향상시켰어요.