사용자가 Qwen3.6-27B 모델을 활용해 추론 속도를 38.1tk/s까지 끌어올리는 실험을 진행했어요. 이는 기존 19.4tk/s 대비 2배 향상된 수치예요. 작은 양자화 모델의 계산량을 활용해 여러 연산을 동시에 수행하는 방식으로, 스펙티브 디코딩과 유사한 효과를 얻었어요. MI50 단일 GPU 환경에서 테스트했으며, Q8(INT8 또는 F8) 양자화 모델에 최적화된 방식이에요.