연구진은 장문 생성 시 모든 토큰을 동일하게 취급하는 기존 증류 방식의 한계를 지적했어요.
DIVE 프레임워크는 병리학 관련 토큰과 EOS 이벤트를 우선시하는 결정적 토큰 감독을 통해 학습 균형을 맞추고, 상태에 따라 동적으로 조절되는 어댑터를 활용해요.
MIMIC-CXR 및 CheXpert Plus 데이터셋에서 두 가지 의료 VLM 백본을 사용한 실험 결과, DIVE는 어휘 및 임상 지표에서 가장 높은 성능을 보였어요.
DIVE는 BLEU-4, ROUGE-L, RadGraph F1에서 최고점을 기록하며 기존 방식과 경쟁력을 유지했어요.