연구진은 미니 배치 확률적 경사 하강법(SGD) 모델의 그래디언트 노이즈를 분석하는 새로운 방법인 곡률 가중 그래디언트 다양성(CWGD)을 제시했어요.
CWGD는 Hessian의 역제곱근으로 샘플별 그래디언트 다양성을 가중하여, 고곡률 방향의 노이즈 영향을 고려한 최적화 노이즈의 지표로 활용돼요.
이 방법을 적용한 CWGD-Cosine 학습률 스케줄은 표준 cosine annealing에 비해 비강 convex 이차 함수 최적화 오류를 최대 2배까지 줄일 수 있으며, 실제 실험에서도 20% 낮은 최종 오류를 달성했어요.