LordNeel이 Ornith-1.0-35B 모델을 Q3_K_M 형식으로 양자화하여 단일 GPU에서 실행할 수 있도록 공개했어요. 이 양자화 모델은 디스크 16.8GB / VRAM 17GB를 사용하며, Q4_K_M보다 21% 작아요.
KL(P_bf16 || P_quant) 프로브 테스트 결과, Q3_K_M은 Q6_K에 비해 top-1 일치율이 16% 포인트 낮지만, Q8_0보다 절반 이하의 VRAM(17GB vs 36GB)을 사용해요.
llama.cpp CUDA 서버에서 단일 스트림 처리량은 약 240 tok/s, 16개 동시 슬롯에서 약 493 tok/s로 확장되며, p95 TTFT는 c1에서 약 78ms를 기록했어요.