Pulse · AI 뉴스

통제된 합격률: 이분법적 보상 강화학습을 최적 정보 영역으로 이끌다

Qwen · 2026-05-07

연구진은 강화학습에서 이분법적 보상이 제공하는 신호가 약한, 편향된 합격률을 가진 그룹 샘플링으로 인한 비효율성을 지적했습니다.

50% 합격률이 보상 엔트로피 최대화, 그룹 필터링 생존 확률 증가, GRPO 기반 RLOO 에너지, 성공-실패 대비 구조를 극대화하는 최적의 작동 지점임을 밝혔습니다.

Prefix Sampling (PS) 기법을 제안하여, 성공적인 접두사는 실패 그룹의 시작점이 되고, 실패하는 접두사는 성공 그룹의 핸디캡 역할을 하여 그룹을 50% 합격률 영역으로 조정합니다.

##강화학습##이분법적보상##PrefixSampling

매일 핵심 AI 소식을 한국어로, 빠르게