Pulse · AI 뉴스

MindEdit-Bench: 실제 사진 기반 객체 조작 추론 능력 평가 벤치마크 공개

MindEdit-Bench · 2026-07-01

연구진이 실제 스마트폰 사진으로 촬영한 실내 3D 장면 데이터셋 MindEdit-Bench를 공개했어요. 이 벤치마크는 객체 이동·회전 등 가상 조작에 대한 시각-언어 모델(VLM)의 추론 능력을 평가합니다. 15개 VLM을 테스트한 결과, 평균 정확도가 8%에서 31%에 불과했으며, 인간의 평균 정확도보다 훨씬 낮았어요.

MindEdit-Bench는 기존 벤치마크와 달리 객체 수준의 반사실적 추론 능력을 평가하며, 8~24개의 정형화된 답변 선택지를 제공해 모델의 오류 원인을 진단할 수 있도록 설계됐어요. 120개의 비공개 실내 장면으로 구성되어 있어 기존 데이터셋과의 중복 위험을 최소화했어요.

결과 분석을 통해 VLM은 카메라 깊이 축 추론 능력과 어려운 가시성 편집 시 대체 행동에서 약점을 보이며, 향후 VLM의 시각적 추론 능력 개선에 기여할 것으로 기대돼요.

##벤치마크##VLM##객체추론##공간추론##MindEdit-Bench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기