Pulse · AI 뉴스

NetKV: 네트워크 인식 디코딩 인스턴스 선택을 통한 분산 LLM 추론 성능 향상

NetKV · 2026-06-03

연구진은 분산 LLM 추론 시 KV 캐시 전송 시간이 TTFT에 영향을 준다는 점에 주목했어요. 기존 스케줄러가 컴퓨팅 부하와 캐시 위치만 고려하는 한계점을 지적하며, 네트워크 거리와 혼잡도를 반영하는 새로운 인터페이스를 제안했어요. NetKV는 네트워크 오라클을 활용해 TTFT를 최대 21.2% 단축하고, SLO 달성률을 20.1% 향상시켰어요.

NetKV는 O(|D|)의 시간 복잡도를 가지는 탐욕적 알고리즘으로, 네트워크 오라클을 활용하여 최적의 티어 순위를 결정해요. 이 순위는 오래된 텔레메트리에도 강건성을 보장하며, 기존 스케줄링 방식보다 우수함을 입증했어요.

Mooncake 트레이스를 기반으로 한 64 GPU 시뮬레이션에서 NetKV는 TTFT 오버헤드를 0.5ms 이하로 유지하며, 기존 방식 대비 성능 향상을 이끌어냈어요. 이 기술은 기존 인프라 변경 없이 적용 가능하며, 분산 LLM 추론 환경의 효율성을 높이는 데 기여할 것으로 기대돼요.

##LLM##분산추론##NetKV##성능최적화##네트워크

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기