Pulse · AI 뉴스

Graft: 추론 속도 향상을 위한 하이브리드 트리 구성 기법

Qwen · 2026-05-20

연구진은 추론 속도를 가속화하기 위해 'Draft Less, Retrieve More' 전략을 도입한 Graft 프레임워크를 발표했어요. 이 기술은 기존의 추측 기반 디코딩 방식의 성능 저하 요인을 개선하고, 자원 효율성을 높여줍니다.

Graft는 가지치기(pruning)와 검색(retrieval)을 결합하여, 가지치기로 확보된 자원을 검색에 활용하고, 검색을 통해 가지치기로 인한 정보 손실을 보완하는 방식으로 작동해요. 이를 통해 성능 저하 없이 속도 향상을 달성합니다.

실험 결과, Graft는 Qwen3-235B 모델에서 최대 5.41배의 속도 향상을 보였으며, 기존 EAGLE-3 방식보다 최대 21.8%의 속도 향상을 기록하며 새로운 성능 기준을 제시했어요.

##LLM##추론##최적화##Graft##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기