연구진은 대규모 언어 모델 추론 속도를 가속화하는 추론적 디코딩(SD)의 단점을 개선한 SpecGuard 프레임워크를 제안합니다. SpecGuard는 모델 내부 신호를 활용하여 각 스텝별로 일관성을 검증하고, 어텐션 기반의 근거 점수와 로그 확률 기반 점수를 결합하여 스텝을 선택합니다. 실험 결과, SpecGuard는 정확도를 3.6% 향상시키고 지연 시간을 약 11% 단축하며 기존 SD 및 보상 기반 SD보다 우수한 성능을 보였습니다.