RTX5090 환경에서 llama.cpp를 사용할 때 MTP(Model Parallelism with Tensor Parallelism)와 GGML_CUDA_ENABLE_UNIFIED_MEMORY 플래그를 함께 사용하면 토큰 생성 속도가 64토큰/초로 향상됩니다.
Qwen3.6-27B 모델을 Unsloth 방식으로 사용하며, 16개의 스레드를 활용하고 262144의 컨텍스트 크기를 설정했습니다.
사용자는 RTX5090, 128GB DDR5 메모리, Ryzen 9 9950X3D 프로세서를 사용하고 있으며, MTP 없이 49토큰/초의 속도를 기록했습니다.