Pulse · AI 뉴스

Qwen2.5-7B 모델 테스트 결과: Q4_K_M가 Q8_0보다 230ms 더 빠르다

Qwen · 2026-05-28

Sigilant-sweep CLI를 통해 llama.cpp와 vLLM에서 Qwen2.5-7B 모델의 다양한 설정을 테스트했어요.

Q4_K_M 양자화 방식이 Q8_0보다 TTFT(토큰 생성 시간)가 230ms 단축되는 결과를 보였어요.

이 도구는 TPS, TTFT, PPL을 측정하며, 16가지 설정 조합을 15회 반복하여 안정적인 결과를 제공해요.

Github에서 오픈소스로 공개되었으며, 피드백을 환영합니다.

##Qwen##llama.cpp##vLLM##양자화

매일 핵심 AI 소식을 한국어로, 빠르게