대규모 언어 모델(LLM) 학습에는 통계적 효과뿐 아니라 계산 및 메모리 효율성까지 고려한 최적화 알고리즘이 필요해요. AdamW가 여전히 주류지만, 최근 연구에서는 적응적 모멘트 추정, 메모리 효율성, 2차 미분 활용 등 다양한 측면에서 개선이 시도되고 있어요. 연구진은 LLM 최적화 연구가 알고리즘 속도 향상에서 벗어나 규모를 고려한 엄격한 비교 단계로 진입하고 있다고 분석했어요.