Scepsy는 여러 LLM과 도구를 활용하는 복잡한 에이전트 워크플로우를 GPU 클러스터에 효율적으로 배치하는 새로운 시스템입니다.
Scepsy는 에이전트 워크플로우의 각 LLM 실행 시간이 비교적 안정적이라는 점을 활용하여 GPU 할당을 결정하고, 이를 바탕으로 지연 시간/처리량 예측기인 Aggregate LLM Pipeline을 구축합니다.
실제 에이전트 워크플로우 평가 결과, Scepsy는 기존 시스템보다 최대 2.4배 높은 처리량과 27배 낮은 지연 시간을 달성했습니다.