Pulse · AI 뉴스

3D VQA를 넘어: 시각-언어 모델에 3D 공간적 사전 지식 주입하여 기하 추론 강화

GASP · 2026-05-29

연구진은 시각-언어 모델(VLM)의 3D 공간 추론 능력 부족 문제를 해결하기 위해 GASP(Geometric-Aware Spatial Priors) 프레임워크를 제안했어요.

GASP는 LLM 트랜스포머 레이어에 2D 시점 불변성 및 3D 기하학적 일관성 사전 지식을 주입하여, 기존 3D VQA 데이터 의존성 문제를 해결해요.

GASP는 내부 대응 매칭 정확도를 70% 이상으로 끌어올리고, 벤치마크에서 각각 18.2%, 29.0% 성능 향상을 보여 3D 공간 추론에 효과적임을 입증했어요.

##VLM##3D추론##기하학##GASP

매일 핵심 AI 소식을 한국어로, 빠르게