연구진은 심층 신경망 훈련 시 발생하는 활성화 값과 기울기의 소실 또는 폭주 문제를 해결하기 위해 StableGrad라는 새로운 최적화 기법을 제안했어요. 이 기법은 모델의 순방향 구조를 변경하지 않고 역방향 과정에서 가중치-기울기 불균형을 수정하여 훈련을 안정화합니다.
StableGrad는 배치 정규화와 달리 물리 기반 신경망(PINN)에서 예측되는 물리장과 그 도함수에 비국소 의존성을 도입하지 않으며, ResNet 및 EfficientNet과 같은 아키텍처에서 배치 정규화를 제거했을 때 훈련이 붕괴되는 문제를 해결합니다.
PINN 벤치마크에서 StableGrad는 동일 깊이의 해상도 정확도를 향상시키고 더 깊은 모델을 더욱 안정적으로 만듭니다. 이 연구는 순방향 정규화가 불가능하거나 바람직하지 않은 경우에도 최적화 수준에서 가중치-기울기 스케일을 제어하는 것이 실용적인 대안이 될 수 있음을 보여줍니다.