연구진이 실제 스마트폰 사진으로 촬영한 실내 3D 장면 데이터셋 MindEdit-Bench를 공개했어요. 이 벤치마크는 객체 이동·회전 등 가상 조작에 대한 시각-언어 모델(VLM)의 추론 능력을 평가합니다. 15개 VLM을 테스트한 결과, 평균 정확도가 8%에서 31%에 불과했으며, 인간의 평균 정확도보다 훨씬 낮았어요.
MindEdit-Bench는 기존 벤치마크와 달리 객체 수준의 반사실적 추론 능력을 평가하며, 8~24개의 정형화된 답변 선택지를 제공해 모델의 오류 원인을 진단할 수 있도록 설계됐어요. 120개의 비공개 실내 장면으로 구성되어 있어 기존 데이터셋과의 중복 위험을 최소화했어요.
결과 분석을 통해 VLM은 카메라 깊이 축 추론 능력과 어려운 가시성 편집 시 대체 행동에서 약점을 보이며, 향후 VLM의 시각적 추론 능력 개선에 기여할 것으로 기대돼요.