Pulse · AI 뉴스

캐시 활용 프리필-디코딩 분리 방식으로 최대 40% 빠른 긴 문맥 LLM 서빙

Together AI · 2026-03-04

Together AI가 새로운 CPD 아키텍처를 공개했어요.

CPD는 워밍 및 콜드 추론 워크로드를 분리하여 처리량을 높이고 긴 문맥 LLM 서빙의 응답 시간을 단축해요.

이 기술을 통해 시간-첫 번째 토큰까지의 시간을 획기적으로 줄일 수 있어요.

##모델출시##서빙##TogetherAI

매일 핵심 AI 소식을 한국어로, 빠르게