pitbox46이 NanoQuant 양자화 방법의 파이토치 구현체를 공개했어요. NanoQuant은 각 레이어 행렬을 두 개의 작은 저랭크 행렬로 분해하여 가중치당 1비트 또는 그 이하로 양자화하는 기술이에요.
원래 행렬을 두 개의 스케일링 벡터와 두 개의 이진 행렬로 분해하여 압축률을 조절할 수 있으며, DBF와 같은 다른 방법보다 계산 비용이 저렴해요. 양자화된 모델은 성능 저하를 최소화하기 위해 파인튜닝 과정을 거쳐야 해요.
현재 Qwen3-0.6B 및 Qwen3-4B 모델을 양자화할 수 있으며, 1비트/가중치로 양자화된 Qwen3-4B 모델은 1.15GB의 크기를 가졌어요. 최신 하이브리드 아키텍처 모델이나 MoE 모델은 아직 지원하지 않아요.