연구진은 현재 Vision-Language Models(VLM)가 시각 정보를 제대로 합성하지 못하고 언어적 편향에 의존하는 '기능적 실명' 현상을 보인다고 주장했어요.
기존 다중 모드 평가 방식의 문제점을 지적하며, 정보 이론 기반의 새로운 평가 방법인 Modality Translation Protocol을 제안했어요.
Toll(ToS), Curse(CoS), Fallacy(FoS) 지표와 Semantic Sufficiency Criterion(SSC)을 제시하여 시각 정보 처리의 '보는 데 드는 비용'을 정량화했어요.
언어 모델의 규모가 커질수록 시각 정보 병목 현상의 페널티가 증가할 수 있다는 Divergence Law를 제시하며, 다중 모드 추론을 위한 새로운 건축 설계법을 제안했어요.