Pulse · AI 뉴스

비용 효율적인 추론을 위한 정책 기반 단계별 모델 라우팅

arXiv cs.AI · 2026-05-07

연구진은 LLM의 추론 비용을 줄이기 위해 단계별 모델 라우팅 기법을 개발했습니다. 이 기법은 강화 학습을 통해 작은 제어 정책을 훈련하고, 성능과 효율성 간의 균형을 조정하는 임계값 보정 기술을 사용합니다.

GSM8K, MATH500, OmniMath 세 가지 수학 벤치마크에서 기존 방식보다 정확도-비용 균형이 개선되었으며, 대규모 프로세스 보상 모델 훈련이 필요한 방식과 유사한 성능을 보였습니다.

정책 기반 단계별 모델 라우팅은 LLM 추론 비용을 줄이는 효과적인 방법으로, 다양한 크기의 언어 모델을 활용하여 추론 성능을 최적화합니다.

##LLM##추론##라우팅##강화학습##비용최적화

매일 핵심 AI 소식을 한국어로, 빠르게