연구진은 MLLM의 물리적 도구 사용 능력을 평가하는 PhysTool-Bench를 공개했어요. 이 벤치마크는 실제 물리적 도구 2,678개를 활용해 도구 인식 및 사용 계획 능력을 측정합니다.
13개 MLLM 모델 평가 결과, 가장 뛰어난 Gemini-3.1-Pro 모델조차 장면 속 도구를 58.7%만 인식하고, 전체 쿼리의 21.0%만 성공적으로 완료했어요.
분석 결과, MLLM은 현실적인 장면에서 도구를 인식하는 데 어려움을 겪고, 인식된 도구를 작업 의미에 연결하는 기능적 상식 부족이 핵심적인 문제점으로 지적돼요.