Pulse · AI 뉴스

LVLMs의 액션-관계 환각 완화: 관계 인식 시각적 강화

arXiv cs.CV · 2026-05-12

대규모 시각-언어 모델(LVLM)은 다양한 시각-언어 작업에서 뛰어난 성능을 보이지만, 여전히 시각 입력과 모순되는 텍스트를 생성하는 환각 현상을 겪고 있습니다.

연구에 따르면 액션-관계 환각의 주요 원인은 시각 정보에 대한 충분한 주의를 기울이지 못하는 것이며, 이에 따라 액션과 관련된 이미지 영역을 식별하고 모델의 주의를 집중시키는 프레임워크를 제안합니다.

제안하는 방법은 액션-관계 감도(ARS) 점수를 정의하여 시각적 단서를 포함하는 액션 관련 이미지 영역을 찾아 시각적 강화(RVE)를 통해 모델의 주의를 집중시킵니다.

##모델출시##시각언어##환각##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기