연구진이 Hyperball이라는 새로운 최적화 기법을 제안했어요. 이는 Adam이나 Muon과 같은 기존 최적화기를 감싸는 방식으로 작동해요. Qwen3 스타일 모델에서 Hyperball을 사용한 Muon은 기존 방식 대비 토큰 처리 속도가 20~30% 향상됐어요. Hyperball은 모델 폭과 깊이를 변경할 때 학습률 전달 성능도 개선하는 효과가 있어요.