Pulse · AI 뉴스

멀티모달 LLM 학습 시 불확실성을 활용한 DPO 방법론 제시

DPO · 2026-05-06

연구진은 멀티모달 LLM(MLLM)의 환각 현상 완화를 위해 Direct Preference Optimization(DPO)을 활용하는 새로운 방법론인 UE-DPO를 제안했어요.

UE-DPO는 모델의 인지적 결함을 파악하고 스스로 수정할 수 있도록 토큰 레벨의 불확실성을 활용하여 학습 강도를 조절하는 방식이에요.

실험 결과, UE-DPO는 기존 방법보다 효과적이고 안정적인 성능을 보여주며, 시각적 세부 사항에 대한 더 깊은 정렬을 가능하게 해요.

##멀티모달##LLM##DPO##불확실성##학습

매일 핵심 AI 소식을 한국어로, 빠르게