연구진이 비용을 고려하여 추론 속도를 최적화하는 CaDDTree 방식을 개발했어요. CaDDTree는 드래프트 트리 구조와 노드 예산을 동시에 선택하여 토큰 처리량을 최대화합니다. Qwen3-4B와 Qwen3-8B 모델을 활용한 실험 결과, 기존 방식보다 성능이 뛰어나거나 동등한 결과를 보여줬어요.
기존 방식은 예산 선택에 어려움이 있었지만, CaDDTree는 검증 비용을 명시적으로 모델링하여 각 라운드마다 예산을 효율적으로 조정합니다. 이를 통해 불필요한 큰 트리를 생성하는 문제를 해결하고 토큰 처리량을 높일 수 있었어요.
CaDDTree는 오프라인 예산 검색 없이 실시간으로 예산을 조정하며, 다양한 벤치마크에서 기존 방식보다 우수한 성능을 입증했습니다.