Pulse · AI 뉴스

모델 병합 시 라우팅 오류: MoE를 위한 트레이닝 프리 라우터 교정

Mixture-of-Experts · 2026-06-02

연구진은 모델 병합 시 Mixture-of-Experts(MoE) 구조에서 라우팅 오류가 발생한다고 밝혔습니다. 라우팅 오류는 병합으로 인한 파라미터 변화에 민감한 softmax 및 Top-k 라우팅 메커니즘에서 비롯되며, MoE 사전 훈련 시 부과되는 로드 밸런싱 제약 조건으로 인해 증폭됩니다.

연구진은 Hessian-Aware Router Calibration(HARC)이라는 트레이닝 프리 프레임워크를 제안하여 라우팅 오류를 해결했습니다. HARC는 2차 커브 정보 활용하여 병합된 라우터의 정렬을 재조정하며, 행렬 프리 공액 경사법으로 효율적으로 해결 가능한 닫힌 형태의 해를 제공합니다.

수학적 추론 및 코드 생성 작업에서 실험 결과, HARC는 다양한 MoE 병합 기준에서 라우팅 오류를 완화하고 상당한 성능 향상을 이끌었습니다. 관련 코드는 GitHub에서 확인할 수 있습니다.

##MoE##라우팅##교정##Hessian##HARC
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기