Papers with Code에서 Speculative Decoding 기법이 주목받고 있어요. 이 기법은 빠른 '초안' 모델로 여러 토큰을 예측하고, 더 큰 '타겟' 모델로 검증하는 방식이에요. SGLang이 Modal과 Z.ai의 DFlash 모델을 활용해 LLM 추론 속도를 최적화했다고 발표했어요.
SGLang 블로그에서 관련 내용과 원 논문 인용 자료를 확인할 수 있어요. 사용자는 추가적으로 어떤 기법을 소개해야 할지 의견을 구하고 있어요.