연구진은 LVLMs의 객체 환각 문제를 해결하기 위해 이미지 의존도에 따라 토큰을 분류하고 분석했어요. 분석 결과, 모델이 텍스트 지시를 따르는 데 집중하고 이미지 정보를 추출하는 데 소홀하다는 것을 발견했어요. 이를 바탕으로 이미지 의존도에 따라 학습 가중치를 조정하고 환각이 심한 데이터를 필터링하는 방법을 제안했어요.
이미지 음수 토큰을 강조하는 방법과 데이터 필터링을 통해 환각을 줄이는 데 성공했으며, 응답 길이와 계산 비용에는 영향을 미치지 않았어요. 이 방법은 세 가지 LVLM 변형에서 효과적임을 입증했어요.
이번 연구는 LVLMs의 객체 환각 문제를 해결하고 실제 적용 가능성을 높이는 데 기여할 것으로 기대돼요.