Process Reward Models(PRM)은 LLM의 추론 과정에서 오류를 감지하는 단계별 피드백 도구로 주목받고 있어요. 연구진은 Planning Domain Definition Language(PDDL) 기반의 계획 문제 해결을 통해 약 백만 개의 추론 단계를 포함하는 새로운 데이터셋을 생성했어요. PDDL 데이터셋을 기존 PRM 학습 데이터에 추가하면 수학 및 비수학적 추론 모두에서 성능이 크게 향상되는 것을 확인했어요.