Pulse · AI 뉴스

API를 넘어: MLLM의 물리적 도구 사용 능력 한계 탐색

Gemini · 2026-06-09

연구진은 MLLM의 물리적 도구 사용 능력을 평가하는 PhysTool-Bench를 공개했어요. 이 벤치마크는 실제 물리적 도구 2,678개를 활용해 도구 인식 및 사용 계획 능력을 측정합니다.

13개 MLLM 모델 평가 결과, 가장 뛰어난 Gemini-3.1-Pro 모델조차 장면 속 도구를 58.7%만 인식하고, 전체 쿼리의 21.0%만 성공적으로 완료했어요.

분석 결과, MLLM은 현실적인 장면에서 도구를 인식하는 데 어려움을 겪고, 인식된 도구를 작업 의미에 연결하는 기능적 상식 부족이 핵심적인 문제점으로 지적돼요.

##MLLM##인공지능##도구사용##PhysTool-Bench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기