SAGA는 AI 에이전트의 워크플로우를 하나의 단위로 취급하여 GPU 스케줄링을 개선하는 기술입니다. 기존 방식의 요청 레벨 스케줄링은 중간 상태를 낭비하고 지연 시간을 늘리는 문제를 해결합니다.
SAGA는 에이전트 실행 그래프, 세션 어피니티 배치, 에이전트 페어 쉐어 기능을 통해 KV 캐시 재사용을 예측하고, 관련 요청을 함께 배치하며, 공정한 자원 할당을 보장합니다.
64 GPU 클러스터에서 SAGA는 SWE-bench 코딩 에이전트와 WebArena 브라우저 작업의 완료 시간을 1.64배 단축하고 GPU 메모리 활용률을 1.22배 향상시켰습니다.