Pulse · AI 뉴스

옵티마이저 설계의 대칭 호환 원리: 임베딩, LM 헤드, SwiGLU MLP, MoE 라우터

Qwen · 2026-05-18

연구진이 옵티마이저 설계의 대칭 호환 원리를 제시했어요. 이 원리는 가중치 블록에 작용하는 대칭 그룹에 대해 공변하는 방식으로 그래디언트 업데이트 규칙을 정의하는 것을 목표로 해요.

임베딩, LM 헤드, SwiGLU MLP 프로젝션, MoE 라우터 행렬 등 다양한 매트릭스 블록에 대한 대칭 호환 업데이트를 도출했어요. 이는 기존 AdamW 업데이트보다 성능이 향상될 수 있음을 보여줘요.

Qwen3, Gemma, OLMoE, GPT-OSS 등 다양한 모델 아키텍처에서 사전 훈련 실험을 통해 대칭 호환 업데이트의 효과를 검증했어요.

실험 결과, 대칭 호환 업데이트는 검증 손실을 개선하고, 일부 경우 훈련 안정성을 향상시키는 것으로 나타났어요.

##옵티마이저##대칭##MoE##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기