오디오·비주얼 캡셔닝은 비디오와 오디오 콘텐츠로부터 자연어 설명을 생성하는 기술이에요. AVEX-Prune은 오디오·비주얼 토큰 교환 전략을 활용하여 불필요한 토큰을 제거하는 RL 기반 방법론이에요.
AVEX-Prune은 토큰 교체를 통해 캡션 생성 결과의 차이를 측정하여 진정으로 가치 있는 토큰을 선택하며, VILA 1.5-8B와 VideoLLaMA 2에서 40%의 유지율을 보였어요.
기존 토큰 가지치기 방법의 단점을 보완하여 토큰 품질을 유지하면서도 효율적인 오디오·비주얼 캡셔닝을 가능하게 해요.