연구진은 영상 LLM의 과도한 시각 토큰 문제를 해결하기 위해 InfoMerge라는 새로운 토큰 압축 방법을 제안했어요. InfoMerge는 영상의 시간적 중복성을 정확하게 추정하고, 콘텐츠에 따라 토큰 예산을 효율적으로 배분하는 방식으로 작동해요.
Temporal Fingerprint Difference를 통해 영상의 시간적 유사성 구조를 분석하고, Content-Aware Budget Allocation (CABA)을 통해 중요도가 높은 부분에 더 많은 토큰을 할당하여 효율성을 높였어요.
실험 결과, InfoMerge는 LLaVA-OneVision-7B에서 원래 성능의 98.8%를 유지하면서 시각 토큰을 85% 줄이고, 프리필 단계에서 4.24배 속도 향상을 달성했어요.