연구진은 LLM 학습의 안정성과 성능을 높이는 Spectral Sphere Optimizer (SSO)를 제안했습니다.
SSO는 가중치와 업데이트를 스펙트럼 구에 배치하여 Muon 최적화기의 한계를 극복하고 완전한 muP 정렬을 실현합니다.
Dense 1.7B, MoE 8B-A1B, 200-layer DeepNet 모델 등 다양한 아키텍처에서 AdamW 및 Muon보다 우수한 성능을 보였습니다.
SSO는 MoE 라우터 부하 균형 개선, 이상치 억제, 활성화 경계 설정 등 실질적인 안정성 이점을 제공합니다.
연구 결과는 arXiv에 공개되었으며, GitHub 저장소를 통해 관련 코드를 확인할 수 있습니다.