NVIDIA의 Nemotron-3-Super 모델을 기반으로 전문가 수를 512에서 256으로 줄이고, GRPO를 활용한 LoRA-RL 파인튜닝을 거쳐 AIME 2026 문제 풀이에 90% 이상의 정확도를 달성했어요.
AWQ 및 FP8 양자화 방식을 적용하여 120B 모델을 64B로 압축하고, 단일 H100/RTX PRO 6000 Blackwell에서 실행할 수 있게 되었어요.
FP8 방식은 AWQ보다 처리 속도는 느리지만, 더 높은 품질과 빠른 수렴 속도를 보여주며, vLLM 패치가 필요해요.