연구진이 LLM 후처리 기법인 CoRP(Consolidating Rewarded Perturbations)를 개발했어요. CoRP는 보상된 변형을 단일 모델로 통합하여 추론 시 여러 번의 모델 실행 없이 성능을 향상시키는 방식이에요.
5개의 언어 모델과 5개의 작업에서 평균 8.1점이 향상되었으며, 기존 RandOpt 방식보다 6.5점이 더 높았고, 50회 반복 추론 결과의 절반 이상을 1회 추론으로 복구했어요.
CoRP는 기존 RandOpt의 변동 예산의 1/10만 사용하면서도, 기존 방식의 단점인 여러 번의 모델 실행 문제를 해결하고 성능을 개선했어요.