사용자가 MTP(Mixture of Positional Transformers)와 TurboQuant를 결합하여 Qwen3.6-27B 모델을 RTX 4090 GPU에서 실행하는 데 성공했습니다.
최적화를 통해 초당 43t/s에서 80-87t/s로 성능을 향상시켰으며, MTP draft acceptance는 약 73%를 기록했습니다.
현재 GitHub 저장소를 통해 빌드 가능한 코드를 공개했으며, 기술적인 세부 사항은 Deepseek 블로그에서 확인할 수 있습니다.