데이터브릭스가 오픈소스 LLM 추론 속도 향상을 위한 프롬프트 캐싱 기법을 소개했어요. 프롬프트 캐싱은 동일한 프롬프트에 대한 응답을 재사용하여 지연 시간을 줄이고 비용을 절감하는 방식이에요. 특히 데이터브릭스에서 실행되는 오픈소스 모델의 경우, 캐싱을 통해 추론 속도를 최대 5배까지 향상시킬 수 있으며, 비용은 최대 3배까지 절감할 수 있다고 설명해요.