Pulse · AI 뉴스

TRACE: 효율적인 에이전트 강화 학습을 위한 통합 롤아웃 예산 할당 프레임워크

Qwen · 2026-06-09

연구진은 강화 학습에서 검증 가능한 보상(RLVR)을 활용하여 대규모 언어 모델의 추론 및 에이전트 행동을 향상시키는 방법을 제시했어요.

TRACE는 롤아웃 예산을 효율적으로 할당하여 보상 대비를 높이는 통합 프레임워크로, 프롬프트와 중간 접두사 모두를 고려하여 트리 구조의 롤아웃을 생성해요.

실험 결과, TRACE는 Qwen3-14B Multi-Hop QA 평균 정확도를 경쟁 모델 대비 2.8 포인트 향상시켰으며, 동일한 샘플링 비용으로 효율적인 성능을 보여줬어요.

##강화학습##에이전트##Qwen##TRACE##RLVR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기