연구진이 테스트 시간 스케일링 비용 문제를 해결하기 위해 RL 기반 적응형 샘플링 방법을 개발했어요. 이 방법은 대규모 언어 모델의 추론 성능을 유지하면서도 계산 비용과 지연 시간을 줄여요. 개발된 컨트롤러는 CPU 환경에서도 학습 및 배포가 가능하며, 예산 제약 조건이 명시된 최적화 문제를 푸는 데 활용돼요.
기존 방법 대비 정확도, 샘플링 라운드, 총 샘플 요구량 측면에서 개선된 성능을 보여줘요. 이 컨트롤러는 최종 답변 통계만 활용하여 가벼운 편이며, 불필요한 샘플링을 줄여 효율성을 높여요.