Pulse · AI 뉴스

CAST: 대규모 시각-언어 모델의 객체 환각 완화

CAST · 2026-05-06

대규모 시각-언어 모델(LVLM)은 뛰어난 성능을 보이지만, 시각 정보와 다른 내용을 생성하여 객체 환각을 일으키는 경우가 많습니다.

연구진은 캡션 기반 쿼리에 대한 LVLM의 시각 정보 주의가 강화된다는 점에 착안하여, 훈련 비용 없이 플러그 앤 플레이 방식으로 환각 완화 기법인 CAST를 제안했습니다.

CAST는 5개의 벤치마크에서 객체 환각을 평균 6.03% 감소시켰으며, 기존 방식보다 우수한 성능을 보입니다.

##모델출시##시각언어모델##객체환각

매일 핵심 AI 소식을 한국어로, 빠르게