Pulse · AI 뉴스

비디오에서 기하학적 표현 학습: 공간 인지 멀티모달 LLM

GeoVR · 2026-06-04

연구진이 2D 비디오 시퀀스만으로 기하학적 표현을 학습하는 새로운 프레임워크 GeoVR을 공개했어요.

GeoVR은 MLLM의 내부 표현을 재구성하여 공간 지능을 확보하며, 3D 데이터 부족 문제를 해결하는 데 기여합니다.

다양한 기하학적 목표를 통해 모델의 내부 표현이 자연스럽게 3D 인지 능력을 갖추도록 유도하며, 공간 추론 벤치마크에서 최고 성능을 달성했어요.

##MLLM##비디오##기하학##GeoVR##공간인지

매일 핵심 AI 소식을 한국어로, 빠르게