Pulse · AI 뉴스

ClipSum: 비전-언어 모델 기반 교육 영상 요약

ClipSum · 2026-05-12

ClipSum은 교육 영상 요약을 위해 CLIP의 비전-언어 특징을 활용하는 프레임워크입니다.

ResNet-152에 비해 4배 낮은 차원(512 vs 2048)으로 33.0%의 ROUGE-1을 달성하며, 의미론적 정합성이 중요함을 입증했습니다.

CLIP을 미세 조정하는 것보다 사전 훈련된 정합성을 유지하는 것이 더 가치 있다는 것을 보여주었습니다(33.0% vs 32.3%).

##비디오요약##CLIP##비전언어##머신러닝

매일 핵심 AI 소식을 한국어로, 빠르게