SpecBlock은 LLM 추론 속도를 가속화하는 새로운 기법으로, 기존 방식의 약점을 보완합니다. 이 기법은 경로 의존성을 유지하면서도 저렴한 비용으로 추론을 수행합니다. 연구 결과, SpecBlock은 EAGLE-3보다 평균 8~13% 더 빠른 속도를 보였으며, 비용 효율성도 향상되었습니다.
SpecBlock은 K개의 의존적인 위치를 생성하는 블록 기반으로 작동하며, 이전 위치의 히든 상태를 활용하여 경로 의존성을 유지합니다. 또한, 비용 효율적인 순위를 매기는 헤드를 사용하여 검증 예산을 효율적으로 사용합니다.
배포 시 비용 인지형 밴디트 방식을 통해 검증자 피드백을 활용하여 드래프터를 선택적으로 업데이트하여 성능을 더욱 향상시킵니다.