연구진이 병렬 트리 초안 작성 방식인 JetSpec을 개발했어요. JetSpec은 MATH-500에서 최대 9.64배, 오픈 엔드 채팅에서 4.58배의 속도 향상을 보여줘요. 기존 추론 방식의 품질과 비용 간 균형 문제를 해결하고, CUDA 그래프와 커널 최적화를 통해 B200 GPU에서 초당 1000TPS를 달성했어요. JetSpec 프로젝트 페이지에서 데모와 구현 방법을 확인할 수 있으며