Pulse · AI 뉴스

시각적 공간 지능에 더 적합한 사전 훈련 패러다임은 무엇인가? 시각-언어 모델과 비디오 생성 모델의 경험적 비교

arXiv cs.CV · 2026-05-27

연구진은 시각-언어 모델(VLM)과 비디오 생성 모델(VGM)의 사전 훈련 방식이 공간 지능에 미치는 영향을 분석했어요.

VLM은 의미 태깅과 인스턴스 그룹핑에 강점을 보이고, VGM은 3D 기하학 예측과 카메라 모션에 더 유용한 정보를 담고 있어요.

##VLM##VGM##공간지능##사전훈련##시각모델

매일 핵심 AI 소식을 한국어로, 빠르게