연구진이 의료 MLLM의 잠재적 추론 성능과 해석 가능성을 높이는 프레임워크 VITAL을 제안했어요. VITAL은 잠재 상태에서 추론 사슬을 재구성하는 텍스트 디코더와 의료 영상 인코더의 ROI 특징을 회귀하는 시각 투영기를 활용해 시각-의미 이중 감독을 수행해요. VITAL은 9개 영상 모달리티를 포괄하는 61K 데이터셋으로 학습하여 기존 모델보다 우수한 성능을 보이며, 7개 벤치마크에서 최고 성능을 달성했어요.