연구진은 CNN, ResNet, Transformer 모델에서 모델 크기, 데이터 크기, 훈련 시간이 증가함에 따라 성능이 먼저 향상되다가 저하된 후 다시 향상되는 이중 하강 현상이 발생함을 확인했어요. 이러한 현상은 주의 깊은 정규화를 통해 종종 회피되며, 연구진은 이 현상이 비교적 보편적이지만 그 원인을 완전히 이해하지 못하고 있어요. 연구진은 이중 하강 현상에 대한 추가 연구가 중요한 연구 방향이라고 강조했어요.