Pulse · AI 뉴스

ELDR: 전문가 지역 인식 디코딩 라우팅 - MoE 모델 성능 향상

vLLM · 2026-07-03

연구진이 PD 분산 LLM 서빙을 위한 새로운 디코딩 라우터 ELDR을 발표했어요. ELDR은 요청의 전문가 시그니처를 활용해 디코딩 워커를 할당하여 전문가 지역 인식을 개선해요.

ELDR은 기존 로드 밸런싱 방식 대비 TPOT을 5.9~13.9% 단축하며 모델 출력은 그대로 유지했어요.

vLLM에 구현된 ELDR은 최대 40개의 GPU 환경에서 테스트되었으며, 세 가지 MoE 모델과 두 가지 워크로드에서 성능 향상을 보였어요.

##MoE##LLM##vLLM

매일 핵심 AI 소식을 한국어로, 빠르게