연구진은 대규모 언어 모델 추론 속도 향상을 위해 다중 토큰 예측(MTP) 방식을 제안했지만, 기존 방식은 백본 언어 모델 헤드와의 경쟁으로 품질 저하를 야기했습니다.
연구진은 백본 언어 모델 헤드가 첫 번째 토큰을 생성하고 MTP 헤드는 이후 토큰만 담당하는 '백본을 아키텍처로 활용' 원리를 제시했습니다.
CLP(Collocation-Length Predictor)는 각 디코딩 단계에서 안전하게 예측할 수 있는 토큰 수를 예측하는 경량 스팬 레벨 의사 결정 레이어로, Qwen2.5 모델에서 최대 1.29배 속도 향상을 보였습니다.
연구 결과, MTP 헤드 예측 정확도가 가속화의 제약 요인이며, 짧은 예측 지평선(k=2)은 대규모 모델에서 24% 더 높은 정확도를 회복하는 것으로 나타났습니다.