Pulse · AI 뉴스

llama.cpp NVFP4/MXFP6 GGUF 양자화 도구 개발

Qwen · 2026-06-05

Anthropic의 연구원이 llama.cpp를 위한 NVFP4 커널을 개발하면서 시작한 고급 양자화 도구(advanced-quantizer-tool)를 공개했어요. 이 도구는 NVFP4 및 MXFP6 모델을 GGUF 형식으로 변환하고, 다양한 양자화 기법을 결합하는 데 사용돼요.

이 도구는 레이어별 양자화 타겟 후보를 평가하고, 전체 모델 KLD 평가를 반복하며, 민감한 텐서를 보수적으로 처리하는 등 다양한 기능을 제공하며, Qwen3.6-27B-NVFP4-MTP-GGUF와 같은 모델을 생성하는 데 활용돼요.

RSF(Refined Scale Fitting)라는 자체 개발 양자화 기법을 포함하고 있으며, CUDA와 llama.cpp를 기반으로 설계되어 빠른 속도와 효율적인 메모리 관리를 제공하며, Blackwell GPU에서 MXFP6 양자화 성능을 극대화할 수 있도록 지원해요.

##llama.cpp##양자화##NVFP4##MXFP6##GGUF
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기