연구진은 강화학습에서 이분법적 보상이 제공하는 신호가 약한, 편향된 합격률을 가진 그룹 샘플링으로 인한 비효율성을 지적했습니다.
50% 합격률이 보상 엔트로피 최대화, 그룹 필터링 생존 확률 증가, GRPO 기반 RLOO 에너지, 성공-실패 대비 구조를 극대화하는 최적의 작동 지점임을 밝혔습니다.
Prefix Sampling (PS) 기법을 제안하여, 성공적인 접두사는 실패 그룹의 시작점이 되고, 실패하는 접두사는 성공 그룹의 핸디캡 역할을 하여 그룹을 50% 합격률 영역으로 조정합니다.