Pulse · AI 뉴스

Radial Suppression이 알고리즘 일반화 가속: 지연된 일반화에 대한 기하학적 분석

Radial Suppression · 2026-07-01

연구진이 신경망이 알고리즘 훈련 데이터를 일반화하기 전에 장기간 암기하는 현상에 대한 기하학적 분석을 발표했어요. 교차 엔트로피 최적화 하에서 숨겨진 표현의 방사형 팽창이 암기-일반화 지연을 유발한다는 사실을 밝혀냈어요. 방사형 팽창을 억제하면 데이터 의존적인 가중치 정규화가 유도되고, 주로 각도 업데이트를 강제하며, 더 평탄한 최소값으로 수렴하는 경향을 유발해요.

단일 하이퍼파라미터 규제 페널티를 사용하여 실험적으로 검증한 결과, 모듈러 산술에서 MLP와 Transformer의 grokking 속도를 최대 6배까지 가속화하고, 3자리 덧셈을 수행하는 1000만 파라미터 nanoGPT의 훈련 단계를 절반으로 줄였어요. 연구 결과는 알고리즘 일반화 과정에 대한 새로운 통찰력을 제공하며, 훈련 효율성을 높이는 데 활용될 수 있어요.

새로운 규제 페널티는 활성화 값을 sqrt(d)-반지름 초구에 부드럽게 제약하며, 이는 데이터 의존적인 가중치 정규화를 유도하고, 주로 각도 업데이트를 강제하며, 더 평탄한 최소값으로 수렴하는 경향을 유발하는 것으로 나타났어요.

##알고리즘일반화##기하학적분석##신경망

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기