Pulse · AI 뉴스

TRACE: 효율적인 에이전트 강화 학습을 위한 통합 롤아웃 예산 할당 프레임워크

Qwen · 2026-06-10

연구진은 강화 학습에서 검증 가능한 보상(RLVR)을 활용하여 대규모 언어 모델의 추론 및 에이전트 행동을 향상시키는 방법을 제시했어요.

TRACE는 ReAct 스타일의 사고-행동-관찰 단계를 의미적으로 구별되는 노드로 모델링하여 프롬프트 루트에서 턴 레벨 프리픽스까지 롤아웃 예산을 할당하는 트리 롤아웃 할당 프레임워크예요.

TRACE는 고정된 샘플링 예산 내에서 보상 대비를 향상시키며, Qwen3-14B Multi-Hop QA 평균 정확도를 경쟁 모델 대비 2.8 포인트 향상시켰어요.

##강화학습##에이전트##RLVR##TRACE
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기