연구진은 LLaVA-1.5 모델 분석 결과, 시각 정보 토큰이 중간 레이어에서 포화되는 현상을 발견했어요.
DPVR-LF는 시각 정보 토큰을 단일 측면 브랜치로 분기하고, 텍스트만 처리하는 13층 포워드를 실행하며, 최종 레이어에서만 융합하는 방식이에요.
기존 모델과 유사한 성능을 유지하면서 시각 정보 처리량을 줄이는 데 성공했어요.
연구 결과는 시각 정보 토큰이 모든 언어 모델 레이어를 통과해야 한다는 기존 가정을 뒤집고, 늦은 융합만으로도 강력한 시각적 역량을 유지할 수 있음을 시사해요.