Pulse · AI 뉴스

블록 검증을 통한 추론 가속화: 연속 디퓨전 모델에 적용

diffusion models · 2026-06-11

연구진이 LLM 추론 속도를 높이는 '스펙ুলে티브 디코딩' 기법을 연속 디퓨전 모델에 적용하는 새로운 방식인 '블록 검증'을 도입했어요. 기존 방식보다 효율적인 샘플링 기법을 사용해 속도를 개선하고, 추가 훈련 없이 최대 6.3%의 속도 향상을 달성했어요. Free Drafter라는 자체 개발 툴은 기존 방식과 유사한 성능을 보이면서도 추가적인 오버헤드가 거의 없어요.

스펙ুলে티브 디코딩은 초안 모델을 활용해 토큰을 생성하고, 수락/거부 방식을 통해 목표 분포와 일치하도록 하는 방식으로, 연속 디퓨전 모델에 적용하기 어려웠어요. 연구진은 블록 검증을 통해 이 문제를 해결하고, 기존 방식의 한계를 극복했어요.

Free Drafter는 훈련 없이도 자체적으로 초안을 생성하는 방식이며, 블록 검증을 통해 초안 수락률을 높여 속도를 향상시키고, 기존 방식과 유사한 성능을 유지하면서도 효율성을 높였어요.

##디퓨전##LLM##추론##가속화##블록검증

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기