본 연구는 MLLM의 시각적 환각 문제를 해결하기 위해 검색 기반 신뢰도 인지 추론 프레임워크를 제안합니다. 시각적 증거 데이터베이스를 구축하고, 검색된 증거를 통해 예측 신뢰도를 측정합니다. 신뢰도 지표에 따라 예측 수용 여부를 결정하고, 불확실할 경우 답변을 보류하거나 다른 방법으로 전환합니다.
ImageNet-100 데이터셋 실험 결과, 수용된 예측 정확도가 85.84%에서 88.88%로 향상됐습니다. 환각과 유사한 오답률은 14.16%에서 11.12%로 감소했습니다.
제안된 프레임워크는 기존 MLLM을 재학습하지 않고도 보정 성능을 개선하고 과신뢰 시각적 오류를 줄입니다. 검색 증거, 신뢰도 추정, 선택적 의사 결정 게이팅 통합이 핵심입니다.
본 연구는 MLLM의 신뢰성을 높이는 데 기여하며, 시각 정보 의존도가 높은 애플리케이션에 유용할 것으로 기대됩니다.