세일즈포스는 복합 AI 사용 사례를 지원하기 위해 모듈식 추론 아키텍처를 개발하고, 이를 통해 95번째 백분위수 지연 시간 50% 감소, 처리량 3.9배 향상, 비용 절감 30~40%를 달성했어요.
본 연구에서는 에이전트 워크로드에서 발생하는 팬아웃 오버헤드, 콜드 스타트 전파, 이종 스케일링과 같은 복합 시스템의 고유한 과제를 분석하고 해결 방안을 제시했어요.
세일즈포스의 아키텍처는 모델 호출을 병렬로 확장하고, 급증하는 멀티 에이전트 워크로드를 처리하며, 빠른 모델 반복을 지원하여 기업 규모의 에이전트 AI 운영을 가능하게 해요.