연구진이 오디오·비디오 통합 생성 모델 학습의 어려움을 해결하기 위해 AVTok이라는 새로운 토큰화 방식을 제안했어요.
AVTok은 1차원 시각 토큰화 방식에서 영감을 받아 오디오와 비디오를 효율적으로 통합하는 이중 스트림 트랜스포머 기반 구조를 사용해요.
기존 방식 대비 계산 자원을 절약하고, 계층적 학습 전략으로 오디오·비디오 정보 불균형 문제를 해결했어요.
AVTok은 오디오·비디오 재구성 및 다양한 생성 작업에서 뛰어난 성능을 보여주며, 향후 통합 멀티모달 모델 개발에 기여할 것으로 기대돼요.