연구진은 대규모 비전-언어 모델에서 시각적 토큰이 입력 토큰의 대부분을 차지하여 계산 부담이 크다는 점에 주목했어요. CLIP 분석 결과, 참조 영역 내 시각적 토큰은 텍스트 표현과 낮은 유사성을 보이는 경향이 있어 이를 활용한 'LiteLVLM'이라는 훈련 불필요 토큰 가지치기 전략을 제안했어요. LiteLVLM은 훈련 없이도 성능의 90%를 유지하며 속도는 2.3배, 메모리는 2.3배 절감하는 효과를 보여줘요.