Pulse · AI 뉴스

Stage-adaptive Token Selection으로 효율적인 Omni-modal LLM 구현

Qwen · 2026-05-19

연구진은 오디오·비디오를 텍스트 토큰과 섞어 처리하는 Omni-modal LLM의 비효율성을 개선하기 위해 SEATS를 제안했어요. SEATS는 LLM 레이어별 토큰 의존성을 분석하여 불필요한 토큰을 제거하는 방식이에요. Qwen2.5-Omni와 Qwen3-Omni 모델 실험 결과, FLOPs를 9.3배 줄이고, 프리필 속도를 4.8배 향상시켰어요.

SEATS는 훈련 없이도 적용 가능하며, LLM 추론 전 스파티오템포럴 중복을 제거하고, 레이어별로 토큰을 점진적으로 제거해요. 늦은 레이어에서는 크로스 모달 퓨전 완료 후 모든 비텍스트 토큰을 제거하여 효율성을 높여요.

연구 결과, 시각 및 오디오 토큰의 10%만 유지하면서 원본 성능의 96.3%를 유지하는 데 성공했어요. 이는 Omni-modal LLM 추론 효율성을 높이는 데 기여할 것으로 기대돼요.

##LLM##Omni-modal##SEATS##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기