연구진은 분산 LLM 추론 시 KV 캐시 전송 시간이 TTFT에 영향을 준다는 점에 주목했어요. 기존 스케줄러가 컴퓨팅 부하와 캐시 위치만 고려하는 한계점을 지적하며, 네트워크 거리와 혼잡도를 반영하는 새로운 인터페이스를 제안했어요. NetKV는 네트워크 오라클을 활용해 TTFT를 최대 21.2% 단축하고, SLO 달성률을 20.1% 향상시켰어요.
NetKV는 O(|D|)의 시간 복잡도를 가지는 탐욕적 알고리즘으로, 네트워크 오라클을 활용하여 최적의 티어 순위를 결정해요. 이 순위는 오래된 텔레메트리에도 강건성을 보장하며, 기존 스케줄링 방식보다 우수함을 입증했어요.
Mooncake 트레이스를 기반으로 한 64 GPU 시뮬레이션에서 NetKV는 TTFT 오버헤드를 0.5ms 이하로 유지하며, 기존 방식 대비 성능 향상을 이끌어냈어요. 이 기술은 기존 인프라 변경 없이 적용 가능하며, 분산 LLM 추론 환경의 효율성을 높이는 데 기여할 것으로 기대돼요.