연구진이 기존 뮤온 방식의 단점을 개선한 DMuon을 공개했어요. DMuon은 기존 훈련 파이프라인에 쉽게 통합되며, 프레임워크 수정 없이 사용 가능합니다. LLM 훈련에서 단계별 처리 시간 1.48배~3.01배 향상, 옵티마이저 단계별 처리 시간 6.85배~163배 향상이라는 성과를 냈어요.
DMuon은 기존 뮤온 방식보다 단계별 처리 시간을 AdamW 수준으로 낮춰 모델 훈련 효율성을 높여줍니다. 기존 훈련 방식과 호환되도록 설계되어, 별도의 프레임워크 수정 없이 바로 적용할 수 있습니다. 분산 훈련 환경에서 모델 훈련 규모를 효율적으로 확장할 수 있도록 지원해요.