본 연구는 시각-언어 모델(VLM)과 비디오 생성 모델(VGM)의 사전 훈련 방식이 공간 지능에 미치는 영향을 분석했어요. VLM은 의미 태깅과 인스턴스 그룹핑에 강점을 보이고, VGM은 3D 기하학 예측과 카메라 동작에 더 유용한 정보를 제공하는 것으로 나타났어요.