연구진은 강화 학습에서 보증된 보상(RLVR)의 추론 능력을 향상시키는 NFPO 알고리즘을 제안했어요. NFPO는 PPO 서브 목표와 정확한 정책 기울기 목표 사이의 다리를 놓아 편향-분산 균형을 제어하는 원리 있는 메커니즘을 제공해요.
NFPO는 N단계 순방향 추적을 활용하여 마스크 정책 기울기 프레임워크에 통합되며, 이론적으로 표준 PPO보다 더 강력한 정책 개선 경계를 제공해요.
종합적인 추론 벤치마크 실험에서 NFPO는 일관되게 성능을 향상시켜 이론적 연구 결과를 뒷받침했어요.