본 연구는 Vision-Language 모델(VLM)이 시각적 착시 현상에 취약하다는 점에 주목하여, 기억에 의존하는 대신 실제 시각적 차이를 인식하도록 돕는 새로운 프레임워크를 제시합니다.
착시 현상을 완화하기 위해 이미지 전처리, 프롬프트 엔지니어링, 다중 투표 앙상블 세 가지 전략을 활용하며, 별도의 파인튜닝 없이 시각 조작과 프롬프트 설계만으로 구현되었습니다.
연구 결과, Claude (claude-opus-4-6) 모델을 사용하여 630장의 테스트 세트에서 90.48%의 정확도를 달성했으며, 인간 검증 세트에서는 98.41%의 정확도를 기록했습니다.