SpecKV는 LLM 추론 속도를 높이는 추론 기법으로, 초안 모델이 제안하는 토큰 수를 조절하는 추론 길이(γ)를 단계별로 조정합니다. 연구 결과, γ는 압축 수준에 따라 달라지며, 초안 모델의 엔트로피와 신뢰도가 수용률을 예측하는 강력한 지표임이 확인되었습니다. SpecKV는 초안 모델 신호 기반으로 γ를 선택하여 기존 방식 대비 56.0% 성능 향상을 보였으며, 0.34ms 오버헤드만 발생합니다.