연구진은 디코더 전용 언어 모델의 장문 컨텍스트 추론 비용을 줄이는 SPEED(Shallow Prefill, dEEp Decode)라는 새로운 KV-visibility 정책을 제안했습니다.
SPEED는 하위 레이어에서만 비-앵커 프롬프트 토큰의 KV 상태를 구체화하고 디코딩 단계에서 토큰의 전체 깊이를 유지하여 상위 레이어의 프롬프트 KV 상태를 저렴하게 저장하거나 구성하는 기존 방식과 차별화됩니다.
Llama-3.1-8B 모델을 활용한 실험에서 SPEED는 전체 깊이 모델과 유사한 성능을 보이면서 TTFT, TPOT을 각각 33%, 22% 개선하고 활성 KV 메모리를 25% 줄였습니다.