연구진은 강화 학습 방법인 GRPO의 문제점(토큰 정보 불균형, 단계별 방향성 오류, 기울기 소실)을 분석하고, 이를 개선한 EP-GRPO 프레임워크를 제안했습니다.
EP-GRPO는 모델의 내부 정보 흐름을 활용하여 밀도 높은 자가 지도 방식으로 가이던스를 제공하며, 엔트로피 게이팅, 정책 발산, 누적 엔트로피 매핑 기술을 통합합니다.
수학적 추론 벤치마크 실험 결과, EP-GRPO는 GRPO 및 변형 모델보다 정확도와 효율성 측면에서 우수한 성능을 보였습니다.