CodecCap은 비디오 캡셔닝의 시각적 충실도와 중복 문제를 해결하기 위해 코덱에서 영감을 받은 프레임워크입니다. 핵심 프레임 캡션은 안정적인 시각적 맥락을 포괄적으로 인코딩하고, 잔차 캡션은 시간적으로 국소화된 동작과 변화를 캡처합니다. VidCapQA 벤치마크를 통해 기존의 강력한 VL 모델이 여전히 시각적 디테일을 놓치고 있음을 확인했습니다.
CodecCap은 기존 캡셔닝 방식보다 훨씬 뛰어난 성능을 보이며, 핵심 프레임-잔차 캡셔닝이 고품질 비디오-언어 감독 학습의 방법이 될 수 있음을 시사합니다. CodecCap을 사용하여 장면, 비디오 수준 감독을 포함한 대규모 캡셔닝 데이터셋 CodecVDC-100K를 구축했습니다.
연구팀은 CodecVDC-100K 데이터셋을 공개하여 연구 커뮤니티의 발전에 기여할 계획입니다.