대규모 시각-언어 모델(LVLM)은 다양한 시각-언어 작업에서 뛰어난 성능을 보이지만, 여전히 시각 입력과 모순되는 텍스트를 생성하는 환각 현상을 겪고 있습니다.
연구에 따르면 액션-관계 환각의 주요 원인은 시각 정보에 대한 충분한 주의를 기울이지 못하는 것이며, 이에 따라 액션과 관련된 이미지 영역을 식별하고 모델의 주의를 집중시키는 프레임워크를 제안합니다.
제안하는 방법은 액션-관계 감도(ARS) 점수를 정의하여 시각적 단서를 포함하는 액션 관련 이미지 영역을 찾아 시각적 강화(RVE)를 통해 모델의 주의를 집중시킵니다.