SlimSpec은 추론 속도를 높이기 위해 초안 모델의 LM-헤드를 저랭크로 압축하는 기술입니다. 기존 방식보다 복잡성을 줄이면서 전체 속도를 8~9% 향상시켰습니다. EAGLE-3 초안 모델을 세 가지 대상 모델과 다양한 벤치마크에서 평가했습니다.
SlimSpec은 표준 LM-헤드 아키텍처보다 4~5배 빠른 속도를 달성하며, 전체적인 추론 속도 향상에 기여합니다. 기존 방식의 복잡한 어휘 관리나 추론 시간 로직을 단순화했습니다.
훈련 및 추론 파이프라인에 최소한의 조작만으로 적용 가능하며, 다양한 초안 LM-헤드 아키텍처에서 강력한 대안이 될 수 있습니다.