연구진은 nGPT 아키텍처가 4비트 정밀도 연산에 강건함을 확인했습니다. 이는 무작위 하다마드 변환과 같은 추가적인 개입 없이도 모델 품질을 유지할 수 있음을 의미합니다. 1.2B 밀집 모델과 3B/30B 파라미터의 하이브리드 MoE 모델에서 안정적인 NVFP4 훈련을 가능하게 합니다. nGPT는 하이퍼스피어 제약으로 인해 요소 곱의 약한 양의 상관관계를 강화하여 신호 대 잡음비가 높아지고 손실 경관이 평탄해지는 효과를 보입니다.