Pulse · AI 뉴스

Qwen3.6-27B, RTX 4090 단일 GPU에서 80+ t/s 성능 달성 – MTP + TurboQuant 조합

Qwen · 2026-05-09

사용자가 MTP(Mixture of Positional Transformers)와 TurboQuant를 결합하여 Qwen3.6-27B 모델을 RTX 4090 GPU에서 실행하는 데 성공했습니다.

최적화를 통해 초당 43t/s에서 80-87t/s로 성능을 향상시켰으며, MTP draft acceptance는 약 73%를 기록했습니다.

현재 GitHub 저장소를 통해 빌드 가능한 코드를 공개했으며, 기술적인 세부 사항은 Deepseek 블로그에서 확인할 수 있습니다.

##Qwen##RTX4090##TurboQuant##MTP##llama.cpp

매일 핵심 AI 소식을 한국어로, 빠르게