연구진은 시점 변화에 따른 공간 추론 능력 부족 문제를 해결하기 위해 360도 이미지 기반의 PCSR-Bench 벤치마크를 새롭게 공개했어요. PCSR-Bench는 84,373개의 질문-답변 쌍으로 구성되어 있으며, 객체 개수 세기부터 복합적인 추론까지 다양한 난이도의 8가지 과제를 포함하고 있어요.
14개의 MLLM을 평가한 결과, 기본적인 공간 인지 능력은 57.59%의 정확도를 보였지만, 시점 변화에 따른 추론 능력은 0.64%에 불과한 것으로 나타났어요. 이는 현재 MLLM이 시점 기반 공간 추론 능력이 부족하다는 것을 보여주는 결과입니다.
7B 모델을 강화 학습으로 훈련한 결과, 특정 조건 하에서 60.06%의 성능 향상을 보였지만, 과제 선택성, 보상 설계, 평가 프로토콜에 따라 결과가 달라지는 것으로 확인되었어요.