Pulse · AI 뉴스

행동이 아닌 믿음을 보상하는 방법: 일관성 기반 신용 할당을 통한 장기 에이전트 훈련

ReBel · 2026-05-20

연구진은 부분 관측 환경에서 LLM 에이전트의 장기 의사 결정을 돕는 ReBel 알고리즘을 제안했어요. ReBel은 상호 작용 기록을 요약하고 정책 학습을 안내하기 위해 구조화된 믿음 상태를 명시적으로 모델링해요.

기존 RLVR 방식의 시간 신용 할당 문제를 해결하기 위해, 예측된 믿음과 피드백 간의 불일치를 활용한 자체 지도 학습 신호를 활용해요. 이를 통해 외부 단계별 주석이나 검증 없이도 가능해요.

ALFWorld와 WebShop 벤치마크에서 ReBel은 에피소드 수준의 GRPO 기준보다 작업 성공률을 최대 20.4% 향상시키고 샘플 효율성을 2.1배 높였어요.

##LLM##강화학습##에이전트##ReBel##신용할당

매일 핵심 AI 소식을 한국어로, 빠르게