연구진은 LLM 에이전트의 적응형 계획 능력을 평가하는 새로운 벤치마크 AdaPlanBench를 공개했어요. AdaPlanBench는 실제 문제 해결 시 발생하는 세계적 제약과 사용자 제약을 점진적으로 드러내는 환경에서 LLM 에이전트의 계획 수정 능력을 평가하는 데 초점을 맞추고 있어요. 실험 결과, 현재 LLM은 이중 제약 하에서 적응형 계획에 어려움을 겪으며, 특히 사용자 제약과 물리적 기반 부족이 주요 원인으로 지목됐어요.