ViQ는 텍스트와 비전을 통합 표현하는 프레임워크로, 이미지의 세부 정보 손실을 최소화하면서 의미론적 정보를 담아냅니다. 텍스트 연계 사전 훈련과 특징 이산화라는 두 단계로 구성되어 있으며, 텍스트 모델의 감독을 통해 시각 인코더의 의미론적 풍부성을 향상시킵니다. ViQ는 기존 방식 대비 경쟁력 있는 성능을 보이며, 다중 모드 훈련 시 효율성을 높여 20~70%의 속도 향상을 달성했습니다.