강화 학습에서 검증 가능한 보상(RLVR)을 위한 고품질 훈련 작업 확보가 주요 난제로 떠올랐어요. 각 작업은 샌드박스 환경, 프롬프트, 수작성 보상 함수를 요구하며, 품질 기준을 통과하는 작업만 유효한 훈련 신호를 제공해요.
연구진은 소규모 수작성 작업의 게이트 필터링 증강을 추가 인간 큐레이션 대체제로 활용해, 10개 벤치마크에서 일반화 성능을 유지하며 비용 효율성을 입증했어요.
합성 작업과 수작성 작업 간 비용 조정 거래율($ρ_{ ext{cost}}$)은 1.4배에서 11.6배 사이로 나타났으며, 이는 자동 증강 콘텐츠가 인간 큐레이션의 효과적인 대체제가 될 수 있음을 시사해요.