연구진은 멀티모달 LLM의 효율적인 추론을 위해 연산자 레벨에서 시각적 토큰을 건너뛰는 새로운 프레임워크를 제안했어요. 연구 결과, Transformer 레이어의 후반부 시각적 토큰 업데이트는 답변 생성에 큰 영향을 미치지 않는 불필요한 연산이 많다는 것을 발견했어요. Qwen3-VL 모델에서 33.7% TFLOPs를 줄이면서도 성능은 99.5% 유지하며, 기존 모델 성능을 거의 손실 없이 효율성을 높였어요.