연구팀은 Visual Instruction Tuning이 LLM의 시각 정보 처리 방식을 분석했어요. 결과적으로 시각 특징이 LLM의 중간 의미층에 직접 통합되며, 초기 단일 모드 처리 계층은 우회하는 것으로 나타났어요.
분석 결과, 중간 의미층이 시각-언어 처리의 핵심이며, 다양한 멀티모달 벤치마크 성능에 중요한 역할을 하는 것으로 확인됐어요.
시각 특징과 기존 텍스트 특징을 정렬하는 추상화 단계를 강화하며, 중간 계층만으로도 전체 파인튜닝만큼의 성능을 유지하면서 학습 시간을 줄일 수 있다는 점을 확인했어요.