연구진이 DiffPrune이라는 새로운 토큰 가지치기 방법을 제안했어요. 기존 방법의 한계를 극복하기 위해 토큰 정보 제어 방식을 도입하여 학습 가능성을 높였어요. DiffPrune은 10개의 VLM 벤치마크에서 전체 모델 정확도의 96.5%를 유지하며 LLM 프리필 속도를 2.85배 가속화했어요. 새로운 방법은 추론 시 0.69ms의 오버헤드만 발생시켜 효율성을 입증했어요.