Pulse · AI 뉴스

폭넓은 얕은 모델의 경사 하강법 전역 수렴에 대한 연구

arXiv cs.LG · 2026-05-12

본 연구는 ReLU 및 시그모이드 활성화 함수를 포함한 다양한 신경망 모델에서 경사 하강법이 전역 최소값을 찾는 현상을 조사합니다.

초기 파라미터 분포가 전체 지지를 가지는 경우, 많은 은닉 뉴런 또는 어텐션 헤드 한계에서 연속 시간 경사 하강법은 전역 최소값으로만 수렴할 수 있습니다.

비전역 최소값의 불안정성을 확립하는 것은 '탈출 활성 집합'을 구성하는 것을 의미하며, 이는 모델의 비선형성이 제한되고 출력 가중치가 스칼라일 때 증명됩니다.

##신경망##경사하강법##최적화##수렴##논문
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기