Pulse · AI 뉴스

계획 기반의 단계별 보상 모델 데이터셋 생성: 정밀하고 확장 가능한 데이터셋 구축

arXiv cs.CL · 2026-04-20

Process Reward Models(PRM)은 LLM의 추론 과정에서 오류를 감지하는 단계별 피드백 도구로 주목받고 있어요.

연구진은 Planning Domain Definition Language(PDDL) 기반의 계획 문제 해결을 통해 약 백만 개의 추론 단계를 포함하는 새로운 데이터셋을 생성했어요.

PDDL 데이터셋을 기존 PRM 학습 데이터에 추가하면 수학 및 비수학적 추론 모두에서 성능이 크게 향상되는 것을 확인했어요.

##보상모델##계획##데이터셋

매일 핵심 AI 소식을 한국어로, 빠르게