연구진이 TreeFlash라는 새로운 기법을 제안했어요. TreeFlash는 추론 속도를 높이는 one-shot block drafter의 한계를 극복하기 위해 설계됐어요. 기존 방식의 문제점을 해결하기 위해 drafter의 hidden state와 이전 토큰에 의존하는 MLP 레이어를 도입했어요.
TreeFlash는 기존 방식보다 블록 효율성을 12% 향상시키고 속도를 9% 더 빠르게 만들었어요. 병렬 처리 방식으로 기존 추론 시간 복잡도인 $\mathcal{O}(1)$을 유지하며 성능을 높였어요. 다양한 작업과 모델에서 최고 성능을 달성했어요.