ClipSum은 교육 영상 요약을 위해 CLIP의 비전-언어 특징을 활용하는 프레임워크입니다. ResNet-152에 비해 4배 낮은 차원(512 vs 2048)으로 33.0%의 ROUGE-1을 달성하며, 의미론적 정합성이 중요함을 입증했습니다. CLIP을 미세 조정하는 것보다 사전 훈련된 정합성을 유지하는 것이 더 가치 있다는 것을 보여주었습니다(33.0% vs 32.3%).