Pulse · AI 뉴스

Qwen 3.6 27B MTP, v100 GPU에서 54t/s 성능 기록

Qwen · 2026-05-06

사용자가 llama.cpp의 MTP 브랜치를 활용해 Qwen 3.6 27B 모델을 v100 GPU에서 테스트했습니다.

MTP 활성화 시 54~55t/s의 성능을 기록했으며, 200k 캐시 제한과 vscode copilot으로 활용했습니다.

am17an에게 감사하며, 해당 브랜치의 발전을 기대하고 있습니다.

##Qwen##llama.cpp##MTP##GPU##성능

매일 핵심 AI 소식을 한국어로, 빠르게