NVIDIA가 5500억 파라미터의 Nemotron 3 Ultra 모델을 공개했어요. 이 모델은 Mamba와 Transformer 구조를 결합한 하이브리드 모델이에요.
20조 토큰으로 사전 훈련하고 100만 토큰까지 컨텍스트 길이를 확장했으며, SFT, RL, MOPD로 추가 훈련했어요.
기존 LLM보다 최대 6배 빠른 추론 속도를 제공하며, 자율 에이전트 작업에 적합하며, 모델 체크포인트와 훈련 데이터를 Hugging Face에서 공개했어요.