Pulse · AI 뉴스

VLMs가 LLMs보다 자연 독해 시 인간 정렬을 전반적으로 향상시키지 않을 수 있음

arXiv cs.CL · 2026-05-28

연구진은 시각-언어 모델(VLM)이 언어 모델(LLM)보다 자연 독해 시 인간 정렬을 개선하는지 조사했어요. 엄격하게 텍스트만 사용한 환경에서 VLM과 LLM을 비교해 다중 모드 학습의 영향을 분리했어요.

fMRI 반응과 시선 추적 데이터를 활용한 자연 독해 데이터셋 분석 결과, 다중 모드 사전 학습이 자연 독해 시 인간 정렬에 전반적인 이점을 제공하지 않을 수 있다는 결과가 나왔어요.

다만, 문장에 시각적 의미 내용이 강할 경우 VLM이 유리할 수 있으며, fMRI와 시선 추적 모두에서 그 증거를 확인했어요.

##LLM##VLM##fMRI##시선추적##언어모델

매일 핵심 AI 소식을 한국어로, 빠르게