Pulse · AI 뉴스

효율적인 크로스 스케일 하이퍼파라미터 전이로 확률적 트랜스포머 확장

Probabilistic Transformer · 2026-04-28

확률적 트랜스포머(PT)는 작은 모델과 데이터셋에서 표준 트랜스포머와 유사한 성능을 보였지만, 하이퍼파라미터 선택에 민감한 단점이 있었어요.

연구진은 Maximal Update Parametrization(muP)을 활용하여 PT의 파라미터를 재조정하고, 작은 모델에서 최적화된 하이퍼파라미터를 큰 모델에 적용하는 방법을 제시했어요.

이 방법을 통해 PT를 최대 0.4B 파라미터 규모로 확장했으며, 동일한 파라미터 예산 내에서 MLM 작업에서 표준 트랜스포머보다 우수한 성능을 보였어요.

##확률적모델##트랜스포머##하이퍼파라미터##확장##MLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기