연구진은 에이전트 강화 학습에서 검색, 클릭, 편집, 탐색 명령 등 환경과 상호작용하는 행동에 대한 신용 할당 방법을 제안했어요.
TRIAGE는 판정관이 각 단계를 결정적인 진전, 유용한 탐색, 진전 없는 인프라 또는 회귀로 분류하고, 역할에 따른 규칙을 통해 단일 단계별 프로세스 보상을 매핑하는 역할 기반 신용 할당 프레임워크예요.
TRIAGE는 GRPO보다 ALFWorld, Search-QA, WebShop에서 성공률을 향상시키고, 판정관 기반 프로세스 보상과 값 기반 베이스라인을 능가하며, 완료된 ALFWorld 및 WebShop 롤아웃에서 환경과 상호작용하는 턴 수를 각각 10.4% 및 14.8% 줄여요.