연구진은 로봇 시스템의 인지 구성 요소로 제안되는 LLM의 의사 결정 과정을 분석하기 위해 Lockbox라는 기계 퍼즐을 사용했어요. RGB, RGB-D, 지상 진리 관찰 데이터를 활용한 실험 결과, LLM은 오히려 raw RGB 입력에서 가장 좋은 성능을 보였어요. 시뮬레이션 결과, 의도적으로 행동 결과를 뒤집는 과정에서 노이즈가 성능을 향상시키는 것으로 나타났어요.
연구 결과, LLM의 성공률만으로는 성능을 평가하기에 부족하며, 인식 오류와 추론 실패 간의 상호 작용을 반영할 수 있다는 점을 시사해요. 반복적인 행동 루프 감소가 성능 향상에 기여하는 것으로 분석되었어요.
성공률 외에 LLM의 성능을 평가하기 위한 새로운 지표 개발 필요성을 제기하며, 체화된 LLM 연구의 중요성을 강조합니다.