Pulse · AI 뉴스

ELDR: 전문가 지역 인식 디코딩 라우팅을 통한 PD 분리 MoE 서빙

vLLM · 2026-07-01

ELDR은 PD 분리 MoE 서빙을 위한 전문가 지역 인식 디코딩 라우터입니다. 요청의 사전 채우기 전문가 활성화를 기반으로 전문가 서명을 구축하여 생성 중에 활성화될 전문가를 예측합니다. 오프라인에서 서명 공간을 K-means로 분할하고 온라인에서 가장 적합한 디코딩 작업자로 요청을 라우팅합니다. 서명 캐시는 KV 캐치와 함께 유지되어 프리픽스 캐싱 시 서명을 정확하게 유지합니다.

vLLM에 구현된 ELDR은 최대 40개의 GPU로 구성된 MoE 모델 배포에서 5.9~13.9%의 TPOT 중앙값 감소를 달성했습니다. 이는 4개의 로드 밸런싱 기준선보다 뛰어난 성능입니다. 모델 출력은 변경되지 않았습니다.

서명 캐시는 KV 블록 수준에서 KV 캐치와 함께 인덱싱되어 프리픽스 캐싱 시 서명을 정확하게 유지합니다.

##MoE##vLLM##라우팅
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기