Pulse · AI 뉴스

Cluster, Route, Escalate: 비용 효율적인 LLM 서빙을 위한 계층 구조 프레임워크

HuggingFace Papers · 2026-06-25

연구진이 LLM 서빙 비용과 정확도 간의 균형을 맞추기 위해 Cluster, Route, Escalate 프레임워크를 제안했어요. 이 프레임워크는 쿼리를 클러스터링하고 비용 효율적인 모델로 라우팅한 뒤, 품질 저하 시 더 강력한 모델로 에스컬레이션하는 방식이에요.

오프라인에서 조정되는 하이퍼파라미터로 라우팅 비용 예산을 설정하여, 전체적인 Time Per Output Token (TPOT)을 줄일 수 있었어요. 97~99%의 정확도를 유지하면서 비용 효율성을 높인 거죠.

이 시스템은 태스크 정확도 라벨만 필요하며, 모델 풀 변경에도 수동 재구성 없이 적응할 수 있다는 장점이 있어요.

##LLM##비용최적화##모델서빙

매일 핵심 AI 소식을 한국어로, 빠르게