Pulse · AI 뉴스

HPO: 희소 보상 환경에서 안정적이고 효율적인 학습을 위한 히스테리틱 정책 최적화

HPO · 2026-05-29

연구진은 GRPO 방식 강화 학습에서 발생하는 문제점, 즉 초기 업데이트에서 부정적 이점이 더 큰 응답이 많다는 점을 지적하고 HPO를 제안했어요.

HPO는 GRPO의 부정적 이점 업데이트 가중치를 줄이고 응답별 길이 정규화를 평균 길이 정규화로 대체하는 방식이에요. A-HPO는 배치 수준의 이점 부호 통계를 기반으로 히스테리틱 가중치를 조절해 추가 튜닝 없이도 성능 향상을 가능하게 해요.

TeleLogs 및 Countdown 실험에서 A-HPO는 GRPO보다 높은 보상을 얻었으며, TeleLogs에서는 SAPO, GSPO, GRPO 대비 각각 5%, 11%, 15% 성능 향상을 보였어요.

##강화학습##HPO##A-HPO##GRPO

매일 핵심 AI 소식을 한국어로, 빠르게