Mixture-of-Experts (MoE) 모델은 LLM 확장에 효과적이지만, 비영어권 작업에 적용하는 데 어려움이 있습니다. 연구팀은 MoE 모델의 라우팅 구조를 고려하지 않은 기존 파인튜닝 방식의 한계를 지적했어요.
연구팀은 중간 레이어에서 언어 간의 정렬 영역이 존재하며, 라우팅 차이가 작업 성능에 영향을 미친다는 것을 확인하고 라우팅 정렬 파인튜닝(RA-MoE) 프레임워크를 제안했어요.
RA-MoE는 영어 작업 전문가의 활성화 패턴을 따르도록 ci 유형 예제에 대한 라우팅 정렬 손실을 추가하여, 3개의 MoE 모델, 3개의 작업, 6개의 대상 언어에서 기존 방식보다 우수한 성능을 보였어요.