연구진은 LLM 기반 계획 시스템의 잠재적 오류를 평가하는 SIMMER 벤치마크를 공개했어요. SIMMER은 주방 환경을 기반으로 인간이 직접 설계한 상징적 세계 모델을 사용하며, 77가지 동작, 262가지 객체, 약 46,800가지 상호작용으로 구성돼요. 실험 결과, 최첨단 모델조차도 17%의 오류 없는 계획만 달성하고, 최대 56%의 계획이 잠재적 오류를 포함하며, 대부분의 오류가 되돌릴 수 없는 결과를 초래하는 것으로 나타났어요.