AdaCodec은 비디오 MLLM이 불필요하게 프레임별 RGB 이미지를 반복하는 문제를 해결하기 위해 개발된 예측적 시각 코드 인터페이스입니다. AdaCodec은 장면 예측 비용이 높을 때만 전체 프레임을 사용하고, 그렇지 않으면 움직임과 예측 잔차를 압축된 P-토큰으로 인코딩합니다. 11개 벤치마크에서 AdaCodec은 Qwen3-VL-8B RGB 기준 성능을 능가하며, 예산의 1/7로도 장비디오 벤치마크에서 224k 기준을 뛰어넘습니다.