Pulse · AI 뉴스

VLM3: 비전 언어 모델, 3D 학습의 새로운 가능성 제시

VLM3 · 2026-05-28

연구진은 기존의 복잡한 모델 없이도 비전 언어 모델(VLM)이 3D 학습 능력을 갖추고 있다고 주장해요. VLM3는 1) 초점 거리 통일, 2) 텍스트 기반 픽셀 참조, 3) 데이터 혼합 및 확장을 통해 표준 VLM이 다양한 3D 작업을 수행하도록 훈련하는 간단한 방법이에요.

VLM3는 기존 모델 대비 3D 깊이 추정 정확도를 0.84에서 0.9로 크게 향상시켰고, 픽셀 대응, 카메라 자세 추정, 객체 수준 3D 이해 등 다양한 3D 작업에서 전문가 수준의 정확도를 달성했어요.

연구진은 VLM3가 단순하고 확장 가능한 3D 학습의 새로운 패러다임을 제시한다고 믿으며, 복잡한 모델 구조나 데이터 증강 없이도 VLM이 3D 작업을 효과적으로 수행할 수 있음을 입증했어요.

##VLM##3D학습##컴퓨터비전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기