연구팀은 LLM 기반 에이전트의 장기 의사결정 문제를 해결하기 위해 'StraTA' 프레임워크를 개발했습니다. StraTA는 초기 상태에서 전략을 샘플링하고, 이후 행동을 이 전략에 맞춰 결정하며, 계층적 GRPO 방식으로 학습을 진행합니다.
ALFWorld, WebShop, SciWorld 환경에서 StraTA는 기존 방법 대비 샘플 효율성과 최종 성능을 향상시켰으며, ALFWorld에서 93.1%, WebShop에서 84.2%의 성공률을 기록했습니다.
SciWorld 환경에서는 StraTA가 63.5%의 점수를 획득하여 최첨단 폐쇄형 모델을 능가하는 성능을 보여주었습니다.