Together AI가 새로운 CPD 아키텍처를 공개했어요. CPD는 워밍 및 콜드 추론 워크로드를 분리하여 처리량을 높이고 긴 문맥 LLM 서빙의 응답 시간을 단축해요. 이 기술을 통해 시간-첫 번째 토큰까지의 시간을 획기적으로 줄일 수 있어요.