연구진은 대규모 다중 모드 모델(LMM)의 추론 지연 문제를 해결하기 위해 VisionPulse 프레임워크를 제안했어요. VisionPulse는 추론 과정에서 단계별로 시각적 토큰을 제거하여 불필요한 시각적 맥락을 줄이고 관련 시각적 증거를 보존해요. 실험 결과, VisionPulse는 단계별로 시각적 토큰의 5%만 유지하면서 추론 과정을 11.2% 단축하고 정확도를 거의 유지했어요.