Pulse · AI 뉴스

과학적 과정에 대한 보상: 에이전트 데이터 분석을 위한 프로세스 레벨 보상 모델링

DataPRM · 2026-04-27

연구진은 기존 프로세스 레벨 보상 모델(PRM)이 일반적인 데이터 분석 작업에서 어려움을 겪는다는 것을 밝혀냈어요.

DataPRM은 환경과 상호작용하여 숨겨진 오류를 발견하고, 수정 가능한 오류와 복구 불가능한 오류를 구별하는 새로운 모델이에요.

DataPRM은 ScienceAgentBench에서 7.21%, DABStep에서 11.28%의 성능 향상을 보여주며, 강화 학습과 결합하여 DABench에서 78.73%, TableBench에서 64.84%의 높은 성공률을 달성했어요.

##데이터분석##강화학습##모델출시##zjunlp
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기