Pulse · AI 뉴스

Grokking 현상에 대한 확률-기하학적 이론

Adam · 2026-06-29

연구진이 Adam 최적화와 가중치 감소 규제를 통해 유도된 해 공간의 토폴로지 구성을 이론적으로 분석했어요. 이 구성이 Grokking 현상을 야기하는 것으로 나타났습니다. 학습률, 배치 크기, L2 규제 계수에 대한 Grokking 스케일링 법칙을 도출하고 실험을 통해 검증했어요.

Grokking은 초기 학습 데이터에 적합하지만, 상당한 지연 후 갑작스러운 전환을 통해 일반화가 시작되는 현상입니다. 연구는 이 현상의 근본적인 메커니즘을 이해하는 데 기여합니다.

모델 파라미터 공간에서 무작위 초기화 솔루션은 메모리 해 솔루션의 구형 껍질을 둘러싸고, 일반화 솔루션을 포함하는 핵심을 포함하는 얇은 외부 구형 껍질에 집중하는 것으로 나타났습니다.

##Grokking##머신러닝##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기