대규모 시각-언어 모델(LVLM)은 강력한 생성 능력을 보이지만, 종종 신뢰성을 떨어뜨리는 환각 현상을 일으킵니다. 연구진은 환각 구성 요소를 추출하는 표현 기반 방법을 제안했지만, 일반적인 생성 능력 저하가 발생했습니다. MPD 프레임워크는 의미론적 요소 분리 및 해석 가능한 파라미터 업데이트를 통해 환각을 줄이고 일반적인 생성 능력을 유지합니다.