Pulse · AI 뉴스

Federation of Experts: 대규모 언어 모델 분산 추론 효율성 향상

Mixture of Experts · 2026-05-07

연구진은 Mixture of Experts (MoE) 모델의 분산 환경에서의 통신 병목 현상을 해결하기 위해 Federation of Experts (FoE) 아키텍처를 제안했습니다.

FoE는 MoE 블록을 여러 클러스터로 재구성하여 GPU 내에서 모든 전문가를 포함시키고, 노드 간 통신 오버헤드를 줄여 단일 노드 환경에서는 모든 전문가 간 통신을 없앱니다.

LongBench 벤치마크 테스트 결과, FoE는 단일 노드 및 다중 노드 환경에서 추론 처리량과 지연 시간을 각각 최대 5.2배, TTFT 3.62배, TBT 1.95배 개선했습니다.

##MoE##분산추론##LLM

매일 핵심 AI 소식을 한국어로, 빠르게