Pulse · AI 뉴스

FlexDraft: 어텐션 튜닝 기반 유연한 추론 가속 기법

FlexDraft · 2026-05-20

FlexDraft는 추론 속도를 높이기 위해 빠른 드래프터를 활용하여 여러 후보 토큰을 제안하고, 대상 모델이 병렬로 검증하는 추론 기법입니다.

어텐션 튜닝, 보너스 기반 교정, 유연한 디코딩 세 가지 핵심 설계를 통해 다양한 배치 크기에 유연하게 대응하며, 기존 방식의 불확실성 문제를 해결합니다.

FlexDraft는 대상 모델의 어텐션 프로젝터만 튜닝하여 고품질 드래프트를 생성하고, 보너스 토큰 불확실성으로 인한 드래프트 검증 불일치를 완화합니다.

##LLM##추론##최적화##어텐션##FlexDraft
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기