Pulse · AI 뉴스

시각-언어 모델의 인과 추론 능력 격차 분석

CAGE · 2026-05-28

연구진이 시각-언어 모델(VLM)의 인과 추론 능력 평가 방법론인 '이중 프로브'를 제시했어요. 텍스트만으로 생성되는 언어적 타당성과 실제 인과 추론 능력의 차이를 분리 측정하는 방법입니다. CAGE 벤치마크를 통해 8개의 VLM을 평가한 결과, 7개 모델이 언어 점수는 높지만 인과 추론 연쇄 점수는 낮은 '추상화 격차'를 보였어요.

CAGE 벤치마크는 Pearl의 인과 계층 구조를 기반으로 5,500장의 이미지와 49,500개의 질문으로 구성돼요. 4만 5천 개의 연쇄 주석 데이터로 모델을 미세 조정했지만 추상화 격차를 줄이는 데 실패했고, 일부 모델만 격차를 거의 해소하는 데 성공했어요.

연구진은 현재 VLM 아키텍처 내에 인과 추론 능력이 존재하며, 사전 훈련 방식과 아키텍처 선택에 따라 달라진다고 밝혔습니다. CAGE는 VLM의 실제 인과 추론 능력을 평가하는 진단 도구로 활용될 수 있습니다.

##VLM##인과추론##CAGE##벤치마크##AI

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기