연구진이 비둘기의 인지 지도 활용 방식을 모방하여 공간 추론 능력을 가진 VLM을 개발했어요. 이 모델은 동적 인지 지도와 공간 관계를 표현하는 SAC를 활용하여 중간 추론 과정을 검증하고, 밀도 높은 보상 신호를 제공해요.
MindCube 벤치마크에서 80.5%의 정확도를 기록하며 기존 최고 성능보다 29.5% 향상, 특히 Rotation subset에서 53.2%의 상대적 성능 향상을 보였어요.
개발된 코드와 데이터는 GitHub에서 공개되었으며, 이를 통해 VLM의 공간 추론 능력 향상에 기여할 것으로 기대돼요.