연구진은 GRPO 방식 강화 학습에서 발생하는 문제점, 즉 초기 업데이트에서 부정적 이점이 더 큰 응답이 많다는 점을 지적하고 HPO를 제안했어요.
HPO는 GRPO의 부정적 이점 업데이트 가중치를 줄이고 응답별 길이 정규화를 평균 길이 정규화로 대체하는 방식이에요. A-HPO는 배치 수준의 이점 부호 통계를 기반으로 히스테리틱 가중치를 조절해 추가 튜닝 없이도 성능 향상을 가능하게 해요.
TeleLogs 및 Countdown 실험에서 A-HPO는 GRPO보다 높은 보상을 얻었으며, TeleLogs에서는 SAPO, GSPO, GRPO 대비 각각 5%, 11%, 15% 성능 향상을 보였어요.