연구진은 딥 네트워크의 학습 불안정성(손실 급증, 진동 수렴, 기울기 병리 등)에 대한 연산자 이론적 설명을 제시했어요.
Adam 옵티마이저의 경우, 헤세 행렬과 적응형 프리컨디셔너의 교환자 [H, M]이 비정상성을 제어하고, 모멘텀 SGD의 경우 업데이트 맵의 증강 상태 공간 구조에서 비롯된다고 밝혔어요.
연구 결과, 스펙트럼 반지름이 1보다 작더라도 일시적 증폭의 조기 경고 지표로 κ(V)를 활용하는 가성 스펙트럼 선행 경계를 도출하고, 예외점이 나타나는 경우 κ(V) -> ∞ 극한의 경우로 설정했어요.