연구진은 LLM 에이전트 학습 시, 기존 정책의 탐색 능력 부족 문제를 해결하기 위해 액션 가이드를 활용하는 ActGuide-RL이라는 새로운 방법을 제안했습니다.
ActGuide-RL은 일상적인 인간 상호작용에서 생성된 액션 데이터를 활용하여 에이전트가 보상 상태에 도달할 수 있도록 돕고, 혼합 정책 학습을 통해 탐색 효과를 내부화합니다.
실험 결과, ActGuide-RL은 기존 RL 방식보다 성능이 향상되었으며, SFT+RL 파이프라인과 유사한 수준의 성능을 보였습니다.