연구진이 파이프라인 병렬성을 활용한 새로운 LLM 추론 프레임워크 'Speculative Pipeline Decoding (SPD)'를 제안했어요. SPD는 중간 특징을 집계하여 다음 토큰을 예측하여 파이프라인 단계를 병렬로 실행하여 추론 속도를 높여요.
기존 방식의 다중 토큰 예측 방식의 어려움과 지연 문제를 해결하기 위해, SPD는 LLM을 n개의 파이프라인 단계로 분할하여 n개의 토큰을 병렬로 처리해요.
실험 결과, SPD는 기존 방식보다 훨씬 높은 이론적 속도 향상을 달성했으며, LLM 추론 가속화를 위한 확장 가능한 솔루션을 제공하는 것으로 나타났어요.