Pulse · AI 뉴스

LLM 추론 속도 향상: Feather 스케줄러로 배치 크기 및 접두사 균일성 최적화

vLLM · 2026-05-07

새로운 스케줄러 'Feather'는 LLM 추론 시 배치 크기와 접두사 균일성을 조율하여 성능을 향상시킵니다.

Feather는 기존 스케줄러보다 최대 10배 높은 처리량을 달성하며, 접두사 공유량이 적을 때는 기존 성능을 유지합니다.

Chunked Hash Tree (CHT) 데이터 구조를 통해 빠른 접두사 감지 및 효율적인 요청 선택을 지원하여 CPU 오버헤드를 줄입니다.

##LLM##추론##최적화##vLLM##Feather

매일 핵심 AI 소식을 한국어로, 빠르게