연구진은 다중 모드 대규모 언어 모델(MLLM)의 언어 공간 병목 현상 문제를 해결하기 위해 연속적인 잠재 추론 방식을 제안했어요.
Asymmetric Mutual Variational Learning (AMVL) 프레임워크는 훈련-추론 불일치를 해결하기 위해 양방향 교정 목표를 사용하며, 훈련 데이터에 있는 정보 누수를 완화해요.
연구 결과, AMVL은 BLINK 벤치마크에서 평균 점수를 +10.8% 향상시켰으며, 개별 추론 작업에서 최대 +32%의 성능 향상을 달성했어요.