Pulse · AI 뉴스

동일 아키텍처, 다른 용량: 옵티마이저 유도 스펙트럼 스케일링 법칙

Muon · 2026-05-20

연구진은 옵티마이저가 FFN 폭을 얼마나 효과적으로 활용하는지에 따라 표현 스케일링 법칙이 달라진다는 것을 발견했어요. AdamW는 어려운 학습 환경에서 0.44의 낮은 하드 랭크 스케일링을 보이는 반면, Muon은 1.02의 선형 스케일링을 보여 2.3배 향상된 결과를 냈어요. 손실 매칭만으로는 표현 구조를 동일하게 할 수 없으며, 옵티마이저 효과는 아키텍처 개입 효과보다 크다는 사실이 밝혀졌어요.

연구 결과는 옵티마이저와 아키텍처의 공동 설계를 촉구하며, 옵티마이저를 표현 스케일링의 중요한 축으로 제시해요. FFN 폭을 늘려도 옵티마이저에 따라 실제 활용되는 스펙트럴 용량이 달라질 수 있다는 점을 강조해요.

이전 연구는 옵티마이저를 고정된 훈련 세부 사항으로 취급했지만, 이번 연구는 옵티마이저가 표현 스케일링에 미치는 영향을 새롭게 조명하며, 향후 LLM 개발 방향에 중요한 시사점을 제공해요.

##LLM##옵티마이저##스케일링법칙##Transformer
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기