Pulse · AI 뉴스

GenLIP: 비전 트랜스포머를 위한 새로운 이미지-언어 사전 학습 프레임워크

GenLIP · 2026-05-02

본 연구에서는 비전 트랜스포머(ViT)를 위한 이미지-언어 사전 학습 프레임워크인 GenLIP를 소개합니다. GenLIP는 표준 언어 모델링 목표를 사용하여 시각적 토큰에서 언어 토큰을 직접 예측하도록 ViT를 학습합니다. 이 설계는 단순성, 확장성, 성능이라는 세 가지 주요 이점을 제공합니다.

Recap-DataComp-1B에서 80억 개의 샘플로 학습한 GenLIP는 더 적은 사전 학습 데이터로 강력한 기준을 능가합니다. 다중 해상도 이미지를 활용한 추가 사전 학습을 통해 OCR 및 차트 이해와 같은 세부적인 작업에서 성능이 향상되었습니다.

GenLIP는 멀티모달 대규모 언어 모델(MLLM)을 위한 비전 인코더의 강력한 기반을 제공합니다.

##비전트랜스포머##MLLM##사전학습##GenLIP

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기