Pulse · AI 뉴스

시각적 공간 지능에 더 적합한 사전 훈련 패러다임은 무엇인가? 시각-언어 모델과 비디오 생성 모델의 경험적 비교

VLM · 2026-05-27

본 연구는 시각-언어 모델(VLM)과 비디오 생성 모델(VGM)의 사전 훈련 방식이 공간 지능에 미치는 영향을 분석했어요.

VLM은 의미 태깅과 인스턴스 그룹핑에 강점을 보이고, VGM은 3D 기하학 예측과 카메라 동작에 더 유용한 정보를 제공하는 것으로 나타났어요.

##VLM##VGM##공간지능##사전훈련##시각모델
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기