VideoFlexTok은 비디오를 유연한 길이로 토큰화하는 새로운 방식입니다. 기존 방식은 비디오를 3D 격자로 나누어 모델이 모든 저수준 디테일을 예측하도록 강제했지만, VideoFlexTok은 비디오 복잡성에 따라 토큰 길이를 조절하여 효율성을 높입니다. VideoFlexTok은 비디오의 중요한 정보를 보존하고, 모델이 불필요한 디테일에 집중하지 않도록 설계되었습니다. 이를 통해 더 짧은 시간에 고품질 비디오를 생성할 수 있습니다.