ViQ는 텍스트와 비전을 통합하는 새로운 프레임워크로, 이미지의 세부 정보 손실 없이 양자화된 표현을 가능하게 합니다. 텍스트와 정렬된 사전 훈련과 특징 이산화라는 두 단계로 구성되어 있으며, 텍스트 언어 모델의 의미론적 감독을 활용하여 고해상도 비디오 입력 처리 가능합니다. ViQ는 기존 방식 대비 경쟁력 있는 성능을 보이며, 다중 모드 훈련 시 효율성을 높여 LLM 및 훈련 방식에 따라 최대 70%까지 속도 향상을 달성합니다.