키미/문샷은 프리필(Prefill) 및 디코딩(Decode) 작업을 단일 클러스터에서 벗어나 데이터센터 간 분산 처리하는 기술을 개발했습니다.
이 기술은 KV 캐시 전송 오버헤드로 인해 어려움을 겪었으나, 키미 리니어(Kimi Linear) 모델을 통해 KV 캐시 크기를 줄여 데이터센터 간 PD(Prefill-Decode)를 실현 가능하게 했습니다.
20배 확장된 키미 리니어 모델에서 검증 결과, 처리량은 1.54배 향상되고 P90 TTFT(Time To First Token)는 64% 감소하여 토큰당 비용 절감 효과를 확인했습니다.