연구진은 강화 학습 환경 자동 설계 프레임워크 'LLM-as-Environment-Engineer'를 제안했어요. 이 프레임워크는 현재 정책 모델이 실패 경로와 환경 정보를 분석하여 다음 단계 훈련 환경 구성을 제안합니다. MAPF-FrozenLake 테스트베드를 통해 환경 재설계 성능을 검증했는데, Qwen3-4B 기반 모델이 GPT·Gemini를 능가하는 성능을 보여줬어요.
실패 증거와 기존 설정을 유지하는 것이 효과적인 환경 업데이트에 중요하며, 강화 학습 과정에서 모델의 약점 진단 능력이 향상되는 것을 확인했어요. 연구진은 구조화된 요약 정보를 바탕으로 환경 구성을 생성했는데, 이 과정에서 정책 행동, 실패 사례, 환경 통계가 활용됐어요.
MAPF-FrozenLake 테스트베드는 다차원 환경 구성을 생성하여 환경 재설계 연구 및 벤치마크에 적합하며, LLM 기반 프레임워크는 기존 강화 학습 환경 설계 방식의 한계를 극복할 수 있을 것으로 기대돼요.