연구진은 강화 학습(RL) 환경 설계를 자동화하는 LLM-as-Environment-Engineer 프레임워크를 제안했어요.
Qwen3-4B를 기반으로 하는 이 프레임워크는 정책 모델이 실패 경로를 분석하고 다음 단계 환경 설정을 제안합니다.
MAPF-FrozenLake 테스트베드에서 GPT·Gemini 등 고성능 LLM과 고정 환경 학습 기준을 능가하는 성능을 보여줬어요.
정책 학습 과정에서 얻은 체크포인트가 원래 모델보다 더 효과적인 환경 설계 능력을 갖는다는 사실이 밝혀졌어요.