확률적 트랜스포머(PT)는 작은 모델과 데이터셋에서 표준 트랜스포머와 유사한 성능을 보였지만, 하이퍼파라미터 선택에 민감한 단점이 있었어요.
연구진은 Maximal Update Parametrization(muP)을 활용하여 PT의 파라미터를 재조정하고, 작은 모델에서 최적화된 하이퍼파라미터를 큰 모델에 적용하는 방법을 제시했어요.
이 방법을 통해 PT를 최대 0.4B 파라미터 규모로 확장했으며, 동일한 파라미터 예산 내에서 MLM 작업에서 표준 트랜스포머보다 우수한 성능을 보였어요.