Pulse · AI 뉴스

NVIDIA, Qwen3.6-35B-A3B-NVFP4 모델 공개

Qwen · 2026-05-31

NVIDIA가 Alibaba의 Qwen3.6-35B-A3B 모델을 양자화한 Qwen3.6-35B-A3B-NVFP4 모델을 공개했어요. 이 모델은 최적화된 트랜스포머 아키텍처를 사용하며, vLLM을 통해 추론 가능하도록 설계됐어요. NVFP4 양자화로 인해 디스크 크기와 GPU 메모리 요구 사항이 약 3.06배 감소했어요.

모델은 MoE 블록 내 선형 연산자의 가중치와 활성화 값을 NVFP4 데이터 타입으로 양자화하여 16비트에서 4비트로 줄였어요. BF16 대비 NVFP4는 MMLU에서 0.4%, Diamond에서 0.2% 성능 감소를 보였어요.

이 모델은 Model Optimizer로 양자화되었으며

##NVIDIA##Qwen##양자화##vLLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기