연구진이 이미지와 비디오 토크나이저를 통합한 최초의 멀티모달 모델 HYDRA-X를 공개했어요. HYDRA-X는 프레임 레벨의 시간적 주의 메커니즘과 계층적 시간 압축을 활용해 시공간 재구현 성능을 높였어요. 이미지·비디오 수준의 의미 정보를 통합하는 경량 디컴프레서를 제안하여, 토크나이저 내부에서 편집 과정을 개선하고 수렴 속도를 높였어요.