연구진은 비디오 생성의 확장성을 높이기 위해 시간 불변 토큰(TIV)과 시간 변동 토큰(TV)을 결합한 새로운 비디오 토큰화 방식인 TivTok을 제안했어요.
TivTok은 정지 배경이나 일관된 객체처럼 반복되는 정보를 재사용하여 비디오를 더 적은 토큰으로 압축하고, Scope-Induced Factorization(SIF)을 통해 TIV 토큰은 전체 클립에, TV 토큰은 해당 프레임과 TIV 토큰에만 집중하도록 설계됐어요.
실험 결과, TivTok은 기존 방식 대비 2.91배 더 효율적인 압축률을 보였으며, 다운샘플링 방식 토큰화에 필요한 토큰의 1.1%만 사용하며 rFVD 12.65를 달성했어요.