연구진이 LLM 서빙 비용과 정확도 간의 균형을 맞추기 위해 Cluster, Route, Escalate 프레임워크를 제안했어요. 이 프레임워크는 쿼리를 클러스터링하고 비용 효율적인 모델로 라우팅한 뒤, 품질 저하 시 더 강력한 모델로 에스컬레이션하는 방식이에요.
오프라인에서 조정되는 하이퍼파라미터로 라우팅 비용 예산을 설정하여, 전체적인 Time Per Output Token (TPOT)을 줄일 수 있었어요. 97~99%의 정확도를 유지하면서 비용 효율성을 높인 거죠.
이 시스템은 태스크 정확도 라벨만 필요하며, 모델 풀 변경에도 수동 재구성 없이 적응할 수 있다는 장점이 있어요.