Pulse · AI 뉴스

LLaVA-OneVision-2: 차세대 시각 인텔리전스 모델 공개

LLaVA · 2026-05-25

LLaVA-OneVision-2 (LLaVA-OV-2)는 LLaVA-OneVision 시리즈 중 가장 뛰어난 성능을 보이는 비전-언어 모델이에요.

이 모델은 압축된 비디오를 연속적인 비트 비용 스트림으로 처리하는 코덱 스트림 토큰화 기술을 활용해 장시간 비디오를 효율적으로 처리해요.

LLaVA-OV-2는 800만 개의 재캡션된 비디오 샘플을 활용한 사전 훈련과 400만 개의 샘플을 활용한 미세 조정을 거쳤으며, JumpScore 벤치마크에서 74.9 JumpScore mAP를 기록했어요.

##LLaVA##비전언어모델##인공지능##영상처리

매일 핵심 AI 소식을 한국어로, 빠르게