본 연구는 (확률적) 경사 하강법으로 훈련되는 광범위 신경망에서 숨겨진 가중치 스펙트럼의 진화를 연구합니다. 스파이크 방향이 무작위 벌크와 통계적으로 의존적인 스파이크 앙상블에 대한 벌크 및 이상치 스펙트럼 동역학을 공동으로 추적하는 2단계 동적 평균장 이론(DMFT)을 개발했습니다.
무한 폭 비선형 네트워크의 평균장/$μ$P 스케일링 및 깊은 선형 네트워크의 비례 고차원 극한에서 두 가지 설정을 적용했습니다. 이론은 훈련 시간, 폭, 출력 스케일 및 초기화 분산에 따른 이상치의 진화를 예측합니다.
깊은 선형 네트워크에서는 $μ$P가 폭과 일관된 이상치 동역학과 하이퍼파라미터 전달을 제공하며, 이는 안정적인 큰 폭의 한계로 향하는 선도 NTK 모드의 폭-안정적인 성장을 보여줍니다.