Pulse · AI 뉴스

키미/문샷, 데이터센터 간 분산 처리 기술 공개: 토큰당 비용 절감 가능성 제시

kimi · 2026-04-19

키미/문샷은 프리필(Prefill) 및 디코딩(Decode) 작업을 단일 클러스터에서 벗어나 데이터센터 간 분산 처리하는 기술을 개발했습니다.

이 기술은 KV 캐시 전송 오버헤드로 인해 어려움을 겪었으나, 키미 리니어(Kimi Linear) 모델을 통해 KV 캐시 크기를 줄여 데이터센터 간 PD(Prefill-Decode)를 실현 가능하게 했습니다.

20배 확장된 키미 리니어 모델에서 검증 결과, 처리량은 1.54배 향상되고 P90 TTFT(Time To First Token)는 64% 감소하여 토큰당 비용 절감 효과를 확인했습니다.

##모델출시##분산처리##키미

매일 핵심 AI 소식을 한국어로, 빠르게