본 연구에서는 비전 트랜스포머(ViT)를 위한 이미지-언어 사전 학습 프레임워크인 GenLIP를 소개합니다. GenLIP는 표준 언어 모델링 목표를 사용하여 시각적 토큰에서 언어 토큰을 직접 예측하도록 ViT를 학습합니다. 이 설계는 단순성, 확장성, 성능이라는 세 가지 주요 이점을 제공합니다.
Recap-DataComp-1B에서 80억 개의 샘플로 학습한 GenLIP는 더 적은 사전 학습 데이터로 강력한 기준을 능가합니다. 다중 해상도 이미지를 활용한 추가 사전 학습을 통해 OCR 및 차트 이해와 같은 세부적인 작업에서 성능이 향상되었습니다.
GenLIP는 멀티모달 대규모 언어 모델(MLLM)을 위한 비전 인코더의 강력한 기반을 제공합니다.