연구진은 심층 신경망의 과매개변수 문제를 설명하는 볼륨 가설에 대한 상반된 실험 결과를 분석했어요. 데이터 규모에 따라 무작위 샘플링과 경사 하강법 학습의 일반화 성능 차이가 달라지는 것을 확인했어요.
볼륨 가설은 낮은 학습 손실 영역에서 일반화 성능이 좋은 영역이 그렇지 못한 영역보다 훨씬 넓다는 주장인데, 실험 환경에 따라 그 효과가 달라지는 것으로 나타났어요.
Replica Exchange Wang-Landau 알고리즘을 사용하여 이진 네트워크에서 학습 및 테스트 정확도에 대한 상태 밀도를 추정하여, 데이터 규모가 커질수록 경사 하강법 학습의 일반화 우위가 감소하는 것을 확인했어요.