연구진은 오디오-비디오 LLM(om-LLMs)의 연산 효율성을 높이는 Stage-adaptive Token Selection (SEATS) 방법을 제안했습니다.
SEATS는 om-LLM의 레이어별 토큰 의존성을 분석하여 불필요한 토큰을 제거하고, 레이어 깊이에 따라 시각 및 오디오 토큰의 중요도가 변화하는 점을 고려합니다.
Qwen2.5-Omni 및 Qwen3-Omni 모델 실험 결과, SEATS는 FLOPs를 9.3배 줄이고 prefill 속도를 4.8배 향상시켰으며, 원본 성능의 96.3%를 유지했습니다.