연구진이 지식과 추론 능력을 강화하는 새로운 학습 데이터셋 VideoKR을 공개했어요. VideoKR은 145K개의 영상으로 구성되어 있으며, 총 315K개의 영상 추론 예제를 포함하고 있어요. VideoKR은 기존 방식보다 더 깊이 있는 영상 추론 능력을 목표로 설계되었으며, 전문가가 직접 제작한 데이터예요.
VideoKR-Eval 벤치마크를 통해 기존 방식의 텍스트 기반 단축 경로를 방지하고 진정한 영상 이해와 지식 기반 추론 능력을 평가할 수 있어요. VideoKR로 사전 학습한 모델은 지식 기반 영상 추론에서 기존 방식보다 뛰어난 성능을 보였어요.