본 연구는 LLM을 훈련할 때 사전 훈련과 동일한 옵티마이저를 사용하여 전체 파인튜닝을 하면 기존 방식보다 지식을 덜 잊으면서 새로운 작업에서 더 나은 성능을 낼 수 있다는 점을 발견했습니다.
연구진은 옵티마이저가 활성화를 정규화하여 모델을 형성하고, 사전 훈련 지식을 덜 잊기 위해서는 특정 구조의 가중치 업데이트가 필요하다고 밝혔습니다.
Muon과 AdamW를 비교한 결과, Muon은 추론 작업 파인튜닝 시 성능이 떨어지는 경향이 있으며, 이는 Muon의 강한 암기 경향에서 비롯된 것으로 분석됐습니다.