NVIDIA가 Alibaba의 Qwen3.6-35B-A3B 모델을 양자화한 Qwen3.6-35B-A3B-NVFP4 모델을 공개했어요. 이 모델은 최적화된 트랜스포머 아키텍처를 사용하며, vLLM을 통해 추론 가능하도록 설계됐어요. NVFP4 양자화로 인해 디스크 크기와 GPU 메모리 요구 사항이 약 3.06배 감소했어요.
모델은 MoE 블록 내 선형 연산자의 가중치와 활성화 값을 NVFP4 데이터 타입으로 양자화하여 16비트에서 4비트로 줄였어요. BF16 대비 NVFP4는 MMLU에서 0.4%, Diamond에서 0.2% 성능 감소를 보였어요.
이 모델은 Model Optimizer로 양자화되었으며