Pulse · AI 뉴스

HYDRA-X: 이미지·비디오 토큰화 통합하는 새로운 멀티모달 모델

HYDRA-X · 2026-06-11

연구진이 이미지와 비디오 토큰화를 융합한 최초의 통합 멀티모달 모델(UMM)인 HYDRA-X를 발표했어요.

HYDRA-X는 ViT 내부에 시공간 재구성 기능을 효율적으로 통합하고, 이미지 및 비디오 수준의 의미 정보를 잠재 공간에 임베딩하는 데 중점을 뒀어요.

7B 모델로 구현된 HYDRA-X는 이미지 및 비디오 이해·생성 작업에서 뛰어난 성능을 보이며, 향후 통합 토크나이저 UMM 개발의 길을 열었어요.

##UMM##멀티모달##비전트랜스포머##HYDRA-X

매일 핵심 AI 소식을 한국어로, 빠르게