연구진은 대규모 시각-언어 모델(LVLM)의 환각 문제를 해결하기 위해 SIRA라는 새로운 프레임워크를 제안했습니다. SIRA는 외부 시각 정보 조작 없이, 모델 내부에서 언어 우선순위가 반영된 참조를 생성하여 토큰 단위의 대비를 수행합니다. POPE, CHAIR, AMBER 데이터셋에서 Qwen2.5-VL, LLaVA-v1.5 모델을 사용하여 실험한 결과, SIRA는 환각 감소와 설명력 유지에 효과적이었습니다.