Pulse · AI 뉴스

NVIDIA Nemotron-3-Super 모델, 전문가 수 절반으로 줄이고 AIME 2026 90% 이상 성능 달성

NVIDIA · 2026-04-22

NVIDIA의 Nemotron-3-Super 모델을 기반으로 전문가 수를 512에서 256으로 줄이고, GRPO를 활용한 LoRA-RL 파인튜닝을 거쳐 AIME 2026 문제 풀이에 90% 이상의 정확도를 달성했어요.

AWQ 및 FP8 양자화 방식을 적용하여 120B 모델을 64B로 압축하고, 단일 H100/RTX PRO 6000 Blackwell에서 실행할 수 있게 되었어요.

FP8 방식은 AWQ보다 처리 속도는 느리지만, 더 높은 품질과 빠른 수렴 속도를 보여주며, vLLM 패치가 필요해요.

##모델출시##양자화##NVIDIA

매일 핵심 AI 소식을 한국어로, 빠르게