Pulse · AI 뉴스

TRIAGE: 역할 기반 신용 할당을 통한 에이전트 강화 학습

TRIAGE · 2026-07-01

연구진은 에이전트 강화 학습에서 검색, 클릭, 편집, 탐색 명령 등 환경과 상호작용하는 행동에 대한 신용 할당 방법을 제안했어요.

TRIAGE는 판정관이 각 단계를 결정적인 진전, 유용한 탐색, 진전 없는 인프라 또는 회귀로 분류하고, 역할에 따른 규칙을 통해 단일 단계별 프로세스 보상을 매핑하는 역할 기반 신용 할당 프레임워크예요.

TRIAGE는 GRPO보다 ALFWorld, Search-QA, WebShop에서 성공률을 향상시키고, 판정관 기반 프로세스 보상과 값 기반 베이스라인을 능가하며, 완료된 ALFWorld 및 WebShop 롤아웃에서 환경과 상호작용하는 턴 수를 각각 10.4% 및 14.8% 줄여요.

##강화학습##에이전트##신용할당
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기