연구진은 시각-언어 모델(VLM)의 비효율적인 시각 토큰 처리 문제를 해결하기 위해 'Reroute'라는 새로운 방법을 제안했어요. 기존 방식은 토큰을 제거하지만, Reroute는 토큰을 재라우팅하여 필요할 때 다시 활용하는 방식이에요.
Reroute는 기존 토큰 중요도 평가 규칙과 단계별 일정을 그대로 사용하며, 모델의 연산량과 메모리 사용량을 유지해요. LLaVA-1.5와 Qwen 백본에서 FastV, PDrop, Nüwa 변형을 통해 성능 향상을 입증했어요.
연구 결과, VLM 토큰 감소는 영구적인 제거가 아닌 회수 가능한 라우팅으로 접근해야 한다는 점을 시사하며, GitHub에서 관련 코드를 확인할 수 있어요.