비전-언어 모델(VLM)은 강력한 다중 모드 성능을 보이지만, 객체 간 상호 작용에 대한 정확한 추론을 필요로 하는 관계 환각에 취약합니다. 본 연구는 회전 및 노이즈와 같은 시각적 왜곡이 관계 추론에 미치는 영향을 분석했습니다. 약한 왜곡만으로도 모델과 데이터 세트에 관계없이 관계 추론 능력이 저하되는 것을 확인했습니다.
프롬프트 기반 증강 및 전처리 전략(방향 수정 및 노이즈 제거)을 평가한 결과, 일부 개선 효과는 있었지만 환각 현상을 완전히 해결하지는 못했습니다.
연구 결과, 인식적 강건성과 관계 이해도 간의 간극이 드러났으며, 더욱 강력하고 기하학적 정보에 민감한 VLM 개발의 필요성을 강조합니다.