연구진은 사전 훈련 최적화 방식이 모델의 기하학적 구조를 고려하지 않아 파국적 망각을 야기할 수 있다고 분석했어요. SAM, 높은 학습률, 짧은 학습률 감쇠 기간 등 평탄한 최소값을 향한 최적화 방식이 모델 크기별로 일관되게 성능을 향상시키고 망각을 최대 80% 줄이는 것을 확인했어요. OLMo-2-1B 체크포인트에 짧은 SAM 중간 훈련 단계를 적용하여 MetaMath 사전 훈련 후 망각을 31%, 4비트 양자화 후 40% 감소시켰어요.