연구진이 다중 모델의 추론 효율성을 높이는 선제적 라우팅 패러다임 'PRP'를 제안했어요. PRP는 작은 초안 모델과 큰 대상 모델을 결합하여 난이도에 따라 쿼리를 효율적으로 분배하며, 초안 모델의 내부 신뢰도 추정 기능과 대상 모델의 처리 능력 예측 기능을 활용해요. 기존 방식과 달리 PRP는 샘플을 가장 잘 해결할 수 있는 곳에 우선적으로 할당하여 추론 속도를 가속화하고 성능 저하 없이 효율성을 높여요.