연구진은 기존 프로세스 레벨 보상 모델(PRM)이 일반적인 데이터 분석 작업에서 어려움을 겪는다는 것을 밝혀냈어요.
DataPRM은 환경과 상호작용하여 숨겨진 오류를 발견하고, 수정 가능한 오류와 복구 불가능한 오류를 구별하는 새로운 모델이에요.
DataPRM은 ScienceAgentBench에서 7.21%, DABStep에서 11.28%의 성능 향상을 보여주며, 강화 학습과 결합하여 DABench에서 78.73%, TableBench에서 64.84%의 높은 성공률을 달성했어요.