Pulse · AI 뉴스

Vision-Language 모델의 시각적 착시 현상 개선 연구

Claude Opus 4-6 · 2026-05-09

본 연구는 Vision-Language 모델(VLM)이 시각적 착시 현상에 취약하다는 점에 주목하여, 기억에 의존하는 대신 실제 시각적 차이를 인식하도록 돕는 새로운 프레임워크를 제시합니다.

착시 현상을 완화하기 위해 이미지 전처리, 프롬프트 엔지니어링, 다중 투표 앙상블 세 가지 전략을 활용하며, 별도의 파인튜닝 없이 시각 조작과 프롬프트 설계만으로 구현되었습니다.

연구 결과, Claude (claude-opus-4-6) 모델을 사용하여 630장의 테스트 세트에서 90.48%의 정확도를 달성했으며, 인간 검증 세트에서는 98.41%의 정확도를 기록했습니다.

##시각착시##Vision-Language모델##프롬프트엔지니어링##CVPR2026
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기