Pulse · AI 뉴스

옵티마이저 설계의 대칭 호환 원리: 임베딩, LM 헤드, SwiGLU MLP, MoE 라우터

Qwen · 2026-05-18

연구진이 옵티마이저 설계의 대칭 호환 원리를 제시했어요. 이 원리는 가중치 블록에 작용하는 대칭 그룹에 대해 공변하는 그래디언트 업데이트 규칙을 사용해야 한다는 내용이에요.

비직교 공변 업데이트를 일반 행렬 레이어에 적용하는 통일된 관점을 제공하고, 임베딩, LM 헤드, SwiGLU MLP 프로젝션, MoE 라우터 행렬 등 다양한 대칭 구조를 가진 파라미터 블록에 맞는 맞춤형 업데이트를 개발했어요.

한쪽 스펙트럼, 행-노름, 하이브리드 행-노름/스펙트럼, 행 인식, 열 인식, 중심 행-노름, 왼쪽 스펙트럼 업데이트 등 다양한 업데이트 방식을 제시했어요.

Qwen3, Gemma, OLMoE, gpt-oss 아키텍처를 활용한 실험에서 대칭 호환 업데이트가 AdamW 업데이트보다 검증 손실 개선 및 안정성 향상에 기여하는 것을 확인했어요.

##옵티마이저##대칭##MoE##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기