본 연구는 ReLU 및 시그모이드 활성화 함수를 포함한 다양한 신경망 모델에서 경사 하강법이 전역 최소값을 찾는 현상을 조사합니다. 초기 파라미터 분포가 전체 지지를 가지는 경우, 많은 은닉 뉴런 또는 어텐션 헤드 한계에서 연속 시간 경사 하강법은 전역 최소값으로만 수렴할 수 있습니다. 비전역 최소값의 불안정성을 확립하는 것은 '탈출 활성 집합'을 구성하는 것을 의미하며, 이는 모델의 비선형성이 제한되고 출력 가중치가 스칼라일 때 증명됩니다.