연구진은 시각적 사고(VT)를 활용한 통합 다중 모드 모델(UMM)의 추론 비용이 성능 향상에 미치는 영향이 제한적임을 확인했어요.
Visual-OPSD는 교차 모드 온-정책 자기 증류를 통해 VT 생성 단계를 제거하고, 텍스트만으로 추론하는 학생 모델에 교사 모델의 추론 능력을 전달하여 성능을 향상시켰어요.
Visual-OPSD는 9개의 벤치마크에서 기존 모델보다 +3.40%p 성능 향상과 함께 추론 속도가 14.3배 빨라지는 효과를 보였어요.