연구진은 LLM 파이프라인에서 보상 모델의 역할을 분석하고, 실제 파이프라인 실행 결과와 보상 모델 예측 간의 불일치 문제를 발견했어요.
PARM(Pipeline-Adapted Reward Model)을 제안하여 파이프라인 데이터와 직접적인 선호도 최적화를 활용, 보상 모델을 파이프라인에 맞게 조정했어요.
PARM은 조합 최적화 코딩 생성 작업에서 실행률과 문제 해결 정확도를 향상시켜, 다단계 LLM 추론에 대한 보상 모델링의 새로운 통찰력을 제공했어요.