SceneFunRI는 가려진 기능 객체의 위치를 추론하는 새로운 벤치마크입니다. SceneFun3D 데이터셋을 기반으로 하며, 모델은 작업 지시와 상식적인 추론을 통해 가려진 객체의 위치를 파악해야 합니다.
현재 최고 성능 모델인 Gemini 3 Flash는 CAcc@75 15.20%, mIoU 0.74%, Dist 28.65%를 기록했습니다.
연구 결과, 가려진 영역 추론은 현재 VLM에서 불안정한 능력이며, 향후 작업 의도, 상식, 공간적 지각, 불확실성 감지를 통합하는 모델 개발이 필요합니다.