연구진은 장기 과제 언어 에이전트 훈련의 어려움으로 신용 오차와 샘플 비효율성을 지적하며, BEACON 프레임워크를 통해 이를 해결하고자 했습니다.
BEACON은 마일스톤 경계를 활용하여 정확한 신용 할당을 보장하고, 부분적인 진행 상황에 대한 시간적 보상 성형을 적용하며, 이중 척도에서 이점을 추정합니다.
ALFWorld, WebShop, ScienceWorld에서 BEACON은 GRPO 및 GiGPO를 능가하며, 특히 ALFWorld에서 성공률을 92.9%까지 끌어올렸습니다.