Pulse · AI 뉴스

EarlyTom: 초기 토큰 압축으로 빠른 비디오 이해 가능

LLaVA · 2026-05-28

EarlyTom은 비디오 LLM의 효율성을 높이는 새로운 프레임워크입니다. 비디오 LLM의 비전 인코더 내에서 초기 단계의 시각 토큰 압축을 수행하여 TTFT(Time-To-First-Token)를 최대 2.65배 단축하고 FLOPs를 최대 61% 줄였습니다. LLaVA-OneVision-7B 모델에서 정확도를 유지하면서 성능을 향상시켰습니다.

기존 방식은 비전 인코더 이후에만 토큰 압축을 수행했지만, EarlyTom은 비전 인코더 내부에서 압축을 수행하여 비전 인코딩 시간을 최적화했습니다. 분리된 공간 토큰 선택 전략을 도입하여 전체적인 압축 효과를 개선했습니다.

EarlyTom은 실제 비디오 LLM 배포 환경에서 활용 가능성을 높여줍니다. 단, 본문에서 언급된 수치는 LLaVA-OneVision-7B 모델 환경에서 관찰된 결과입니다.

##비디오LLM##토큰압축##LLaVA##EarlyTom

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기