연구진이 LLM 추론 속도를 높이는 '스펙ুলে티브 디코딩' 기법을 연속 디퓨전 모델에 적용하는 새로운 방식인 '블록 검증'을 도입했어요. 기존 방식보다 효율적인 샘플링 기법을 사용해 속도를 개선하고, 추가 훈련 없이 최대 6.3%의 속도 향상을 달성했어요. Free Drafter라는 자체 개발 툴은 기존 방식과 유사한 성능을 보이면서도 추가적인 오버헤드가 거의 없어요.
스펙ুলে티브 디코딩은 초안 모델을 활용해 토큰을 생성하고, 수락/거부 방식을 통해 목표 분포와 일치하도록 하는 방식으로, 연속 디퓨전 모델에 적용하기 어려웠어요. 연구진은 블록 검증을 통해 이 문제를 해결하고, 기존 방식의 한계를 극복했어요.
Free Drafter는 훈련 없이도 자체적으로 초안을 생성하는 방식이며, 블록 검증을 통해 초안 수락률을 높여 속도를 향상시키고, 기존 방식과 유사한 성능을 유지하면서도 효율성을 높였어요.