Pulse · AI 뉴스

llama.cpp: MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY 플래그 사용 시 성능 향상 확인

Qwen · 2026-05-12

RTX5090 환경에서 llama.cpp를 사용할 때 MTP(Model Parallelism with Tensor Parallelism)와 GGML_CUDA_ENABLE_UNIFIED_MEMORY 플래그를 함께 사용하면 토큰 생성 속도가 64토큰/초로 향상됩니다.

Qwen3.6-27B 모델을 Unsloth 방식으로 사용하며, 16개의 스레드를 활용하고 262144의 컨텍스트 크기를 설정했습니다.

사용자는 RTX5090, 128GB DDR5 메모리, Ryzen 9 9950X3D 프로세서를 사용하고 있으며, MTP 없이 49토큰/초의 속도를 기록했습니다.

##llama.cpp##MTP##CUDA##Qwen3.6##성능

매일 핵심 AI 소식을 한국어로, 빠르게