연구진이 vLLM 기반의 통합 음성 이해 및 생성 추론 파이프라인을 개발했어요. 이 파이프라인은 음성 토큰 생성 시 발생하는 지연 패턴을 자연스럽게 처리하고, GPU 기반 음향 디코더를 통합하여 엔드투엔드 파형 합성을 가능하게 해요. 기존 인식에 따르면 Classifier-Free Guidance (CFG) 사용 시 처리량이 절반으로 줄어들지만, 연구진은 배치 내 조건부 및 무조건부 요청을 공동 스케줄링하여 처리량 저하를 최소화했어요.