Pulse · AI 뉴스

Gemma 모델 QAT(Quantization Aware Training) gguf 공개: 정확도 개선된 양자화 방식 적용

Gemma · 2026-06-15

idkwhattoputherenow 사용자가 Gemma 4B 및 31B 모델에 대한 정확도 개선된 QAT(Quantization Aware Training) gguf 파일을 Hugging Face에 공개했어요. 기존 방식보다 오류를 줄이는 새로운 양자화 방식을 적용했습니다.

새로운 방식은 BF16 스케일 대신 F16을 사용하며, 기존 Q4_0 방식과 유사한 KLD(Kullback-Leibler divergence) 값을 얻는 것을 목표로 합니다. Heretic 모델과 비교했을 때 성능이 향상된 것으로 나타났어요.

현재 pytorch 코드가 미완성 상태이며, 관심 있는 개발자는 PR을 통해 개선에 참여할 수 있습니다. Google의 원래 gguf 릴리스보다 더 나은 결과를 얻을 수 있다고 설명하며, 31B 모델을 우선적으로 업로드했습니다.

##Gemma##QAT##gguf##양자화##HuggingFace

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기