연구진은 시각-언어 모델(VLM)과 비디오 생성 모델(VGM)의 사전 훈련 방식이 공간 지능에 미치는 영향을 분석했어요. VLM은 의미 태깅과 인스턴스 그룹핑에 강점을 보이고, VGM은 3D 기하학 예측과 카메라 모션에 더 유용한 정보를 담고 있어요.