Pulse · AI 뉴스

OTT-Vid: 비디오 LLM을 위한 최적 수송 기반 시간 축 토큰 압축

OTT-Vid · 2026-05-12

OTT-Vid는 비디오 LLM의 추론 비용을 줄이기 위해 시간 축 토큰 압축 프레임워크입니다. 이 프레임워크는 각 프레임의 토큰 중요도와 프레임 쌍의 압축 가능성을 고려하여 압축 강도를 조절합니다. 실험 결과, OTT-Vid는 기존 방법보다 성능을 유지하면서 토큰 수를 10%까지 줄일 수 있었습니다.

OTT-Vid는 먼저 각 프레임에서 대표적인 콘텐츠를 식별하고, 이후 최적 수송(OT)을 사용하여 인접 프레임 간의 시간적 압축 가능성을 추정합니다. 이 과정에서 토큰의 중요도와 매칭 비용을 균형 있게 고려합니다.

비디오 질문 답변 및 시간적 정지점 찾기 벤치마크에서 OTT-Vid는 기존 방법보다 95.8%의 VQA 성능과 73.9%의 VTG 성능을 유지하며 토큰 수를 10%로 줄이는 데 성공했습니다.

##비디오LLM##토큰압축##최적수송##OTT-Vid##컴프레션
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기