Pulse · AI 뉴스

Qwen 3.6 27B 모델, 4개의 RTX A4000 GPU로 Llama.cpp & MTP 활성화

Qwen · 2026-05-18

사용자가 4개의 Nvidia RTX A4000 GPU를 활용해 Qwen 3.6 27B 모델을 실행하는 환경을 구축했어요. MTP (Multi-Piece Tensor Parallelism)를 활성화하여 코딩 작업 시 최대 60 토큰/초의 성능을 보여요.

Qwen 3.6 27B 모델은 262114 컨텍스트 크기를 지원하며, Q8 GGUF 변형을 사용해 실행돼요. GPU 레이어는 999개로 설정되어 있고, Tensor 분할 모드를 사용하고 있어요.

Qwen 3.6 35B MoE 모델은 레이어 분할 모드로 실행되며, 코딩 시 90 토큰/초의 성능을 내지만, 실제 코딩 능력은 27B 모델보다 약간 떨어지는 경향이 있어요.

사용자는 1년 반 전에는 로컬 추론 커뮤니티에 참여하지 않았지만, 현재는 하드웨어 성능을 향상시키는 노력을 통해 보람을 느끼고 있다고 밝혔어요.

##Qwen##Llama.cpp##RTXA4000##MTP##GPU

매일 핵심 AI 소식을 한국어로, 빠르게