연구진은 Spec-AUF라는 새로운 훈련 기법을 제안하여, 블록 드래프터의 훈련 과정에서 Train-Inference Misalignment 문제를 해결하고자 했습니다.
AUF는 기존 방식과 달리, 드래프터의 첫 번째 실패 지점까지의 교차 엔트로피 지원을 유지하여 prefix-sensitive supervision을 근사합니다.
Qwen3-8B 모델에서 AUF를 적용했을 때, DFlash 드래프터의 평균 생성 토큰 길이(τ)가 2.40에서 2.61로 향상되었으며, Domino 헤드에서도 성능 향상을 보였습니다.