새로운 스케줄러 'Feather'는 LLM 추론 시 배치 크기와 접두사 균일성을 조율하여 성능을 향상시킵니다. Feather는 기존 스케줄러보다 최대 10배 높은 처리량을 달성하며, 접두사 공유량이 적을 때는 기존 성능을 유지합니다. Chunked Hash Tree (CHT) 데이터 구조를 통해 빠른 접두사 감지 및 효율적인 요청 선택을 지원하여 CPU 오버헤드를 줄입니다.