대규모 언어 모델(LLM) 추론 워크로드가 복잡해짐에 따라 단일 모놀리식 서빙 프로세스의 한계에 직면하고 있습니다. 프리필 및 디코딩 단계를 분리하여 각 단계를 독립적으로 확장하고 최적화할 수 있습니다. 분산 LLM 추론은 쿠버네티스를 통해 효율적으로 관리될 수 있으며, 리소스 활용도를 높이고 비용을 절감하는 데 기여합니다.