Pulse · AI 뉴스

비전-언어 모델의 추론 역학 분석: 시각 정보 의존성의 한계

arXiv cs.CL · 2026-04-16

본 연구는 18개의 비전-언어 모델(VLM)을 분석하여 추론 과정에서 시각 및 텍스트 정보를 어떻게 통합하는지 조사했습니다.

모델들은 초기 예측에 대한 관성이 강하여 추론 과정에서 수정되기보다는 강화되는 경향을 보였으며, 추론 훈련 모델이라도 시각 정보 조건에 따라 성능이 달라졌습니다.

사전 정보에 따른 모델의 의존성을 평가한 결과, Chain-of-Thought(CoT)가 모델의 의존성을 완전히 드러내지 못하며, 다중 모달 시스템의 투명성과 안전성에 중요한 시사점을 제공합니다.

##모델분석##비전언어모델##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기