LLaVA-OneVision-2 (LLaVA-OV-2)는 LLaVA-OneVision 시리즈 중 가장 뛰어난 성능을 보이는 비전-언어 모델이에요.
이 모델은 압축된 비디오를 연속적인 비트 비용 스트림으로 처리하는 코덱 스트림 토큰화 기술을 활용해 장시간 비디오를 효율적으로 처리해요.
LLaVA-OV-2는 800만 개의 재캡션된 비디오 샘플을 활용한 사전 훈련과 400만 개의 샘플을 활용한 미세 조정을 거쳤으며, JumpScore 벤치마크에서 74.9 JumpScore mAP를 기록했어요.