연구진은 복잡한 비디오 추론을 위한 VideoLLM 학습의 어려움을 해결하기 위해 VISD(Structured Self-Distillation) 프레임워크를 제안했습니다.
VISD는 비디오에 특화된 판단 모델을 활용하여 답변 정확성, 논리적 일관성, 시공간적 정합성 등 다차원적인 추론 품질을 분해하고, 토큰 수준의 감독 신호를 제공합니다.
실험 결과, VISD는 기존 방식 대비 성능과 샘플 효율성을 모두 향상시켜 답변 정확도와 시공간적 정합성 품질을 개선하는 데 기여했습니다.