연구진은 다중 모달 LLM의 환각 현상 완화를 위한 프레임워크 LIME을 제안했습니다. LIME은 추론 과정에서 시각 및 청각 정보를 더 적극적으로 활용하도록 설계되었습니다. Layer-wise Relevance Propagation(LRP)을 활용하여 토큰 수준의 기여도를 측정하고, 시각적 정보에 대한 의존성을 높이는 목표를 설정합니다.
LIME은 모델 파라미터를 수정하거나 추가 훈련 데이터를 필요로 하지 않으며, 추론 시간 동안 모델의 핵심-값 표현을 업데이트합니다. 다양한 다중 모달 벤치마크에서 환각 감소와 더 나은 정보 기반 출력을 확인했습니다.
분석 결과, LIME은 모달 기여도를 높이고 더 세밀하고 의미에 맞는 관련성 패턴을 생성하는 것으로 나타났습니다.