Pulse · AI 뉴스

Spec-AUF: Train-Inference Misalignment 하에서 Accept-Until-Fail Training

Qwen · 2026-07-02

연구진은 Spec-AUF라는 새로운 훈련 기법을 제안하여, 블록 드래프터의 훈련 과정에서 Train-Inference Misalignment 문제를 해결하고자 했습니다.

AUF는 기존 방식과 달리, 드래프터의 첫 번째 실패 지점까지의 교차 엔트로피 지원을 유지하여 prefix-sensitive supervision을 근사합니다.

Qwen3-8B 모델에서 AUF를 적용했을 때, DFlash 드래프터의 평균 생성 토큰 길이(τ)가 2.40에서 2.61로 향상되었으며, Domino 헤드에서도 성능 향상을 보였습니다.

##LLM##훈련##DFlash##Qwen3##Domino

매일 핵심 AI 소식을 한국어로, 빠르게