연구진은 MLLM의 환각 현상 원인을 텍스트-이미지 교차 어텐션의 성능 저하로 밝혀냈습니다. ADAPT는 교차 어텐션에 개입하여 시각적 정렬을 유도하는 프레임워크로, 시각적 앵커, 어텐션 감시, DPO를 활용합니다. ADAPT는 주요 MLLM 백본에서 환각률을 40~60% 감소시키며, 코드 GitHub에서 확인할 수 있습니다.