연구진은 기존의 단순 성공/실패 기준으로 실제 능력을 과대평가하는 문제를 지적하며, MetaFine이라는 새로운 메타 평가 프레임워크를 공개했어요. MetaFine은 이해, 인식, 제어라는 세 가지 축으로 조작 능력을 진단하고, 기존 모델의 숨겨진 약점을 드러낼 수 있습니다. 이 프레임워크는 시각 인코더의 공간 구조 보존 능력 부족이 미세 조작의 주요 병목 현상임을 밝혀냈고, 이를 개선하여 새로운 조작 능력을 발휘했습니다.