Pulse · AI 뉴스

효율적인 오디오·비디오 캡셔닝을 위한 오디오-비주얼 교환 인식 토큰 가지치기

VILA · 2026-06-09

오디오·비주얼 캡셔닝은 비디오와 오디오 콘텐츠로부터 자연어 설명을 생성하는 기술이에요. AVEX-Prune은 오디오·비주얼 토큰 교환 전략을 활용하여 불필요한 토큰을 제거하는 RL 기반 방법론이에요.

AVEX-Prune은 토큰 교체를 통해 캡션 생성 결과의 차이를 측정하여 진정으로 가치 있는 토큰을 선택하며, VILA 1.5-8B와 VideoLLaMA 2에서 40%의 유지율을 보였어요.

기존 토큰 가지치기 방법의 단점을 보완하여 토큰 품질을 유지하면서도 효율적인 오디오·비주얼 캡셔닝을 가능하게 해요.

##오디오캡셔닝##비디오캡셔닝##토큰가지치기##AVEX-Prune##RL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기