Allen AI에서 Mixture of Experts (MoE) 모델 EMO를 공개하며, 데이터 기반으로 모듈 구조를 자체 학습하는 새로운 접근 방식을 선보였습니다.
EMO는 특정 작업에 12.5%의 전문가만 사용하면서도 전체 모델 성능을 유지하며, 모든 전문가를 사용할 때는 강력한 범용 모델로 작동합니다.
EMO는 문서 경계를 약한 감독 신호로 활용하여 토큰이 동일한 도메인의 전문가를 선택하도록 유도하며, 이를 통해 전문가 그룹이 특정 도메인에 특화되도록 합니다.
10억 개의 활성 파라미터와 140억 개의 총 파라미터를 가진 EMO는 1조 개의 토큰으로 사전 훈련되었으며, Hugging Face에서 모델, 기술 보고서, 코드를 확인할 수 있습니다.
EMO는 단일 모델을 조립 가능한 아키텍처로 만들어 메모리-정확도 균형을 개선하고, 대규모 희소 MoE의 유연한 배포를 가능하게 합니다.