Pulse · AI 뉴스

AdaCodec: 비디오 MLLM을 위한 예측적 시각 코드

Qwen · 2026-06-01

AdaCodec은 비디오 MLLM이 이전 프레임의 맥락을 예측하기 어려울 때만 전체 프레임을 사용하고, 나머지는 간결한 변경 사항을 전송하는 예측적 시각 코드 인터페이스를 제안합니다.

AdaCodec은 예측 비용이 높을 때만 전체 시각 토큰을 사용하고, 그렇지 않으면 모션과 예측 잔차를 포함한 프레임 간 변경 사항을 압축된 P-토큰으로 인코딩합니다.

11개 벤치마크에서 AdaCodec은 시각 토큰 예산을 맞춘 Qwen3-VL-8B RGB 기준선보다 성능이 향상되었으며, 예산을 1/7로 줄여도 장비디오 벤치마크에서 224k 기준선을 능가했습니다.

##비디오##MLLM##AdaCodec##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게