연구진은 다중 모달 대규모 언어 모델(MLLM) 학습 시 발생하는 단축키 문제를 해결하기 위해 ViGOS 프레임워크를 제안했어요. ViGOS는 학생 모델이 먼저 이미지 설명을 작성하고, 이후 추론을 수행하는 방식으로 학습돼요.
유효한 학습 데이터의 경우, 이미지 기반 교사가 설명을 지도하고, 특권 교사는 추론과 최종 답변을 지도하며, 잘못된 데이터의 경우 참조 교사가 출력 형식을 복구하는 역할을 해요.
ViGOS는 다양한 벤치마크에서 OPSD의 장점을 유지하면서 이미지 기반 행동을 개선하는 효과를 보여줬어요.