연구에서 LLM 서빙 시 요청마다 GPU 메모리가 누적되는 서비스 유발 혼잡 현상을 분석했어요.
메모리 용량을 초과하면 요청이 강제 종료되고 재시작되어 계산 자원을 낭비하고 처리량을 감소시키죠.
동적 모델 분석 결과, 균일한 작업량에서는 처리량 손실이 최대 50%까지 발생할 수 있으며, 다양한 작업량에서는 입력 길이의 비가 안정성에 영향을 미쳐요.
연구는 서비스 유발 혼잡을 구조적 불안정성 메커니즘으로 규정하고, 높은 처리량을 유지하기 위한 스케줄링 설계 원칙을 제시합니다.