Pulse · AI 뉴스

LLM 서빙 부하 인식 사전 채우기 회피를 위한 방법론

vLLM · 2026-07-02

연구진은 분산 LLM 서빙 환경에서 사전 채우기 노드의 과부하와 디코딩 노드의 유휴 상태를 해결하기 위해 사전 채우기 회피 스케줄러를 개발했어요. 이 스케줄러는 디코딩 노드가 사전 채우기 단계를 병렬로 처리하여 KV 캐시 전송 지연을 줄이고 TTFT를 단축해요. vLLM에 구현된 이 방법론은 P95 TTFT를 최대 81% 단축하고 SLO 달성률을 최대 79% 향상시켰어요.

기존 분산 스케줄러 대비, 사전 채우기 회피 스케줄러는 요청당 1밀리초 미만의 라우팅 비용으로 운영되며, 노드 간 KV 캐시 전송을 제거하여 성능을 최적화해요. DeepSeek-V2-Lite 모델을 사용한 실험에서, 사전 채우기 실행 시간이 전체 TTFT의 2~23%에 불과하다는 것을 확인했어요.

사전 채우기 회피 스케줄러는 각 요청의 TTFT를 예측하고, 디코딩 경로가 TTFT 개선에 도움이 되는 경우 사전 채우기 단계를 디코딩 노드에서 처리하여 전체적인 성능을 향상시키도록 설계됐어요.

##LLM##분산서빙##vLLM##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기