연구진이 시각적 캡션링 모델의 사실성 검증을 위한 새로운 보상 방법인 VCap을 제안했어요. VCap은 참조 캡션과 시각적 신호를 결합하여 캡션 품질 검증에 필요한 정밀한 신호를 제공합니다.
VCap을 사용한 80억 파라미터 모델은 여러 이미지 및 비디오 캡션링 벤치마크에서 최고 성능 모델을 능가했어요. 인간 평가 결과 사실성 측면에서 높은 일치도를 보였어요.
VCap은 MLLM의 인식 능력 향상, 다양한 작업에서의 일반화, 최적의 N번 증류 능력을 뛰어넘어 기존 가정을 뒤집었어요.