연구진은 비디오의 시각적 복잡도에 따라 토큰 예산을 동적으로 할당하는 Adaptive 비디오 토큰화 기술을 제안했어요. Temporal Redundancy Masking 기법을 통해 프레임 간 최소한의 변화를 보이는 위치의 토큰을 제거하여 압축률을 자연스럽게 조절해요. Latent Inpainting Transformer (LIT)를 활용하여 제거된 토큰 위치를 복원하며, 기존 방식 대비 31배 빠른 추론 속도를 달성했어요.