연구진이 비디오 캡셔닝 효율성을 높이는 새로운 프레임 선택 방법 PEEK을 공개했어요. PEEK은 더 강력한 모델에서 프레임 관련성 순위를 학습하여 시각 정보만으로 작동하는 가벼운 모델로, 기존 방식보다 정확하고 효율적입니다. ActivityNet Captions 및 MSR-VTT 데이터셋에서 PEEK은 여러 비디오-언어 모델에서 최고 성능을 달성했으며, 특히 프레임 수가 적을 때 CIDEr 점수가 높게 나타났어요.