연구진은 시각-언어 모델(VLM)의 3D 공간 추론 능력 부족 문제를 해결하기 위해 GASP(Geometric-Aware Spatial Priors) 프레임워크를 제안했어요.
GASP는 LLM 트랜스포머 레이어에 2D 시점 불변성 및 3D 기하학적 일관성 사전 지식을 주입하여, 기존 3D VQA 데이터 의존성 문제를 해결해요.
GASP는 내부 대응 매칭 정확도를 70% 이상으로 끌어올리고, 벤치마크에서 각각 18.2%, 29.0% 성능 향상을 보여 3D 공간 추론에 효과적임을 입증했어요.