Pulse · AI 뉴스

TRIAGE: 역할 기반 신용 할당을 통한 에이전트 강화 학습

TRIAGE · 2026-06-30

연구진은 에이전트 강화 학습에서 검색, 클릭, 편집, 탐색 명령 등 환경과 상호 작용하는 행동에 대한 신용 할당 문제를 해결하기 위해 TRIAGE 프레임워크를 제안했어요.

TRIAGE는 판별관이 각 세그먼트를 결정적인 진전, 유용한 탐색, 진전 없는 인프라 또는 회귀로 분류하고, 역할에 따라 고정된 규칙을 적용하여 세그먼트 수준의 프로세스 보상을 제공해요.

실험 결과, ALFWorld, Search-QA, WebShop에서 TRIAGE는 GRPO보다 성공률을 향상시키고, 판별관 기반 프로세스 보상 및 값 기반 베이스라인을 능가하며, 환경과의 상호 작용 횟수를 줄이는 효과를 보였어요.

##강화학습##에이전트##TRIAGE##신용할당
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기