Pulse · AI 뉴스

효율적인 오디오-비디오 LLM을 위한 Stage-adaptive Token Selection

Qwen · 2026-05-20

연구진은 오디오-비디오 LLM(om-LLMs)의 연산 효율성을 높이는 Stage-adaptive Token Selection (SEATS) 방법을 제안했습니다.

SEATS는 om-LLM의 레이어별 토큰 의존성을 분석하여 불필요한 토큰을 제거하고, 레이어 깊이에 따라 시각 및 오디오 토큰의 중요도가 변화하는 점을 고려합니다.

Qwen2.5-Omni 및 Qwen3-Omni 모델 실험 결과, SEATS는 FLOPs를 9.3배 줄이고 prefill 속도를 4.8배 향상시켰으며, 원본 성능의 96.3%를 유지했습니다.

##LLM##오디오##비디오##토큰선택

매일 핵심 AI 소식을 한국어로, 빠르게