연구진은 시각-언어 모델이 일반적인 다중 모드 이해에는 능숙하지만 시각 공간 계획에는 어려움을 겪는다고 밝혔습니다.
모달리티 격차를 해소하기 위해 두 단계의 자기 증류 프레임워크인 MGSD를 제안했는데, 첫 번째 단계는 시각적 학생에게 안정적인 상태 표현을 제공하고, 두 번째 단계는 명시적 상징적 상태를 사용하여 학생의 시각적 롤아웃 접두사를 지도합니다.
MGSD는 시각 계획 벤치마크에서 4B 및 8B 백본 모두에서 시각 계획을 일관되게 개선하여 매크로 평균을 각각 19.3% 및 18.4% 향상시켰습니다.
코드는 GitHub에서 확인할 수 있습니다.