연구진은 LLM 사전 훈련에 효과적인 Muon 옵티마이저가 VLA(Vision-Language-Action) 훈련과 RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 한계를 드러낸다고 밝혔습니다.
VLA 훈련 시에는 낮은 랭크의 액션 모듈 그래디언트가 노이즈를 증폭시키고, RLVR 훈련 시에는 낮은 SNR 그래디언트와 사전 훈련된 헤드별 특수성을 유지해야 하는 어려움이 발생합니다.
이러한 문제를 해결하기 위해 연구진은 스펙트럼 고역통과 방식을 도입한 Pion을 제안하여, 주요 고유값을 1에 고정하고 노이즈를 억제하며, 사전 훈련된 헤드별 이질성을 유지합니다.