연구진은 멀티모달 LLM(MLLM)의 환각 현상 완화를 위해 Direct Preference Optimization(DPO)을 활용하는 새로운 방법론인 UE-DPO를 제안했어요.
UE-DPO는 모델의 인지적 결함을 파악하고 스스로 수정할 수 있도록 토큰 레벨의 불확실성을 활용하여 학습 강도를 조절하는 방식이에요.
실험 결과, UE-DPO는 기존 방법보다 효과적이고 안정적인 성능을 보여주며, 시각적 세부 사항에 대한 더 깊은 정렬을 가능하게 해요.