N-vium은 표준 하드웨어에서 깊이 방향으로 부분적으로 연산을 병렬화하여 토큰당 FLOP 수를 최소화하지 않고 초당 효과적인 FLOP 수를 늘리는 Mixture-of-Exits Transformer입니다. 이 모델은 여러 깊이에서 예측 헤드를 부착하고, 토큰에 따라 중간 헤드 간의 배치를 학습하여 다음 토큰 분포를 정의합니다. N-vium은 최대 1.5B 파라미터 규모로 사전 훈련되었으며, 57.9%의 벽시계 속도 향상을 달성했습니다.