MIRL은 시각 정보-언어 모델의 시각적 오류와 환각 문제를 해결하기 위해 상호 정보(MI)를 활용하는 새로운 프레임워크입니다. MIRL은 잘못된 시각적 설명으로 인해 실패할 가능성이 높은 경로에 샘플링 예산을 낭비하는 문제를 해결하고, 시각적 인식과 추론 단계를 독립적으로 훈련합니다. 실험 결과, MIRL은 기존 방법보다 높은 정확도를 달성했으며, 전체 경로 샘플링 횟수를 줄이는 데 성공했습니다.