본 논문에서는 강화 학습 알고리즘 PPO의 이론적 기반과 실제 성능 간의 간극을 해소하기 위해 Bounded Ratio Reinforcement Learning (BRRL) 프레임워크를 새롭게 제안합니다.
BRRL은 새로운 정규화 및 제약 조건 정책 최적화 문제를 제시하고, 이를 통해 성능 향상을 보장하는 분석적 최적해를 도출하며, Bounded Policy Optimization (BPO) 알고리즘을 개발했습니다.
다양한 환경에서의 실험 결과, BPO와 LLM 파인튜닝을 위한 GBPO는 PPO 및 GRPO와 동등하거나 더 나은 안정성과 최종 성능을 보여주었습니다.