연구진이 이미지와 비디오 토큰화를 융합한 최초의 통합 멀티모달 모델(UMM)인 HYDRA-X를 발표했어요. HYDRA-X는 ViT 내부에 시공간 재구성 기능을 효율적으로 통합하고, 이미지 및 비디오 수준의 의미 정보를 잠재 공간에 임베딩하는 데 중점을 뒀어요. 7B 모델로 구현된 HYDRA-X는 이미지 및 비디오 이해·생성 작업에서 뛰어난 성능을 보이며, 향후 통합 토크나이저 UMM 개발의 길을 열었어요.