대규모 시각-언어 모델(LVLM)은 뛰어난 성능을 보이지만, 시각 정보와 다른 내용을 생성하여 객체 환각을 일으키는 경우가 많습니다. 연구진은 캡션 기반 쿼리에 대한 LVLM의 시각 정보 주의가 강화된다는 점에 착안하여, 훈련 비용 없이 플러그 앤 플레이 방식으로 환각 완화 기법인 CAST를 제안했습니다. CAST는 5개의 벤치마크에서 객체 환각을 평균 6.03% 감소시켰으며, 기존 방식보다 우수한 성능을 보입니다.