Pulse · AI 뉴스

대규모 시각-언어 모델의 환각 완화를 위한 사전 채우기 시간 개입

arXiv cs.AI · 2026-04-28

대규모 시각-언어 모델(LVLM)은 시각-텍스트 이해에서 괄목할 만한 성과를 거두었지만, 사실과 다르거나 일관성 없는 응답을 생성하는 환각 현상으로 인해 신뢰성이 크게 저해되고 있어요.

사전 채우기 단계에서 한 번만 개입하여 초기 키-값(KV) 캐시를 향상시키는 새로운 방법인 사전 채우기 시간 개입(PTI)을 제안했어요.

PTI는 시각과 텍스트 표현에 대한 모달리티 인지 방향을 파생하여 키를 시각적으로 기반한 객체로 조종하고, 값을 배경 노이즈 필터링하여 환각 발생 가능성이 있는 표현을 근본적으로 수정해요.

##모델출시##환각##시각언어모델

매일 핵심 AI 소식을 한국어로, 빠르게