FlexDraft는 추론 속도를 높이기 위해 빠른 드래프터를 활용하여 여러 후보 토큰을 제안하고, 대상 모델이 병렬로 검증하는 추론 기법입니다.
어텐션 튜닝, 보너스 기반 교정, 유연한 디코딩 세 가지 핵심 설계를 통해 다양한 배치 크기에 유연하게 대응하며, 기존 방식의 불확실성 문제를 해결합니다.
FlexDraft는 대상 모델의 어텐션 프로젝터만 튜닝하여 고품질 드래프트를 생성하고, 보너스 토큰 불확실성으로 인한 드래프트 검증 불일치를 완화합니다.