Pulse · AI 뉴스

EP-GRPO: 엔트로피-진척 정렬 그룹 상대 정책 최적화

EP-GRPO · 2026-05-06

연구진은 강화 학습 방법인 GRPO의 문제점(토큰 정보 불균형, 단계별 방향성 오류, 기울기 소실)을 분석하고, 이를 개선한 EP-GRPO 프레임워크를 제안했습니다.

EP-GRPO는 모델의 내부 정보 흐름을 활용하여 밀도 높은 자가 지도 방식으로 가이던스를 제공하며, 엔트로피 게이팅, 정책 발산, 누적 엔트로피 매핑 기술을 통합합니다.

수학적 추론 벤치마크 실험 결과, EP-GRPO는 GRPO 및 변형 모델보다 정확도와 효율성 측면에서 우수한 성능을 보였습니다.

##강화학습##GRPO##LLM##추론##EP-GRPO

매일 핵심 AI 소식을 한국어로, 빠르게