Pulse · AI 뉴스

Draft Less, Retrieve More: 추론 가속을 위한 하이브리드 트리 구성

Qwen · 2026-05-19

연구진은 추론 속도 가속을 위해 Draft-then-verify 패러다임을 활용하는 Speculative Decoding(SD)의 효율성을 높이는 Graft 프레임워크를 소개했어요.

Graft는 가지치기(pruning)와 검색(retrieval)을 결합하여 가지치기로 인한 정보 손실을 보완하고, 기존 방법의 성능 저하를 개선했어요.

실험 결과, Graft는 Qwen3-235B 모델에서 최대 5.41배의 속도 향상과 EAGLE-3 대비 최대 21.8%의 속도 향상을 달성하며 새로운 성능 균형을 이루었어요.

##추론가속##SpeculativeDecoding##Graft##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게