현재 시각 언어 모델(VLM) 환경에서 공간 지능 평가의 신뢰성에 문제가 있어요. 기존 벤치마크는 3D 어노테이션 기반으로 만들어져서, 영상 평가 시 오류가 발생할 수 있답니다.
연구진은 ReVSI라는 새로운 벤치마크와 프로토콜을 도입하여, 모델의 실제 입력 환경에서 답변 가능한 정확한 QA 쌍을 제공하는 데 중점을 두었어요.
ReVSI는 데이터 품질 개선, 편향 완화, 인간 검증을 통해 VLM의 공간 지능 실패 요인을 밝혀내고, 보다 신뢰성 있는 평가를 가능하게 한답니다.