Frontier는 현대 LLM 추론 서빙 시스템 시뮬레이션을 위한 새로운 시뮬레이터입니다. 분산 추론 환경을 지원하며, CUDA 그래프와 추론 디코딩 최적화 기능을 통합했습니다. 16-H800 GPU 테스트베드에서 처리량 오차 4% 미만을 달성했습니다. 기존 시뮬레이터 대비 정확도를 크게 향상시켜, 새로운 활용 사례를 가능하게 합니다.
Frontier는 역할별 클러스터 워커, 프리필-디코딩 분산(PDD), 어텐션-FFN 분산(AFD)을 모델링하여 현대 서빙 시스템의 구조와 역동성을 반영합니다. 메모리, 통신, 연산 비용 예측 정확도를 높여 SLA 기반 파레토 프론티어 탐색, 이종 분산 할당 등의 활용을 지원합니다.
기존 시뮬레이터는 단일 복제 추상화로 분산 서빙에 적합하지 않았고, 평균 사례 분석 프록시는 SLA 예측을 왜곡했습니다. Frontier는 이러한 한계를 극복하고, 1K 개 이상의 GPU에서 실행 가능하며, 다양한 서빙 시나리오에서 정확한 예측을 제공합니다.
Frontier는 16-H800 GPU 테스트베드에서 기존 시뮬레이터 대비 종단 간 지연 시간 오차를 크게 줄여, LLM 서빙 시스템 설계 및 최적화에 기여할 것으로 기대됩니다.