다중 모드 LLM이 과학 논문 검토를 돕는 데 사용되면서, 주장이 증거로 뒷받침되는지 확인하는 것이 중요해졌어요. 표 형태 증거보다 차트 형태 증거에서 모델 성능이 현저히 떨어지는 현상이 발견됐어요. 연구 결과, 모델은 차트 정보를 인코딩하지만 예측 단계에서 활용하지 못하는 문제점을 보였어요.
레이어별 선형 프로빙과 어텐션 분석을 통해 세 가지 오픈 웨이트 VL 모델을 분석한 결과, 차트 정보는 중간 표현에 인코딩되지만 예측 위치까지 전달되지 않는다는 것을 확인했어요. 표의 경우 이런 격차가 없으며, 모든 조건에서 동일한 현상이 나타났어요.
이 연구는 표와 차트 간의 격차를 단순한 인코딩 실패가 아닌, 인코딩된 시각 정보의 라우팅 실패로 재해석하며, 모델 아키텍처의 개선 방향을 제시합니다.