Pulse · AI 뉴스

비평 없는 RLVR에서 그룹 재고

arXiv cs.CL · 2026-06-16

연구진은 기존 비평 없는 강화 학습(RL) 방법의 데이터 비효율성, 그룹 동기화 문제, 구조화된 롤아웃의 유연성 부족을 지적했어요. 그룹의 역할은 단순히 기준선을 추정하는 것이 아니라 부정 샘플에 대한 잘못된 페널티를 방지하는 것이라고 밝혔어요. 연구진은 단일 롤아웃 학습을 가능하게 하는 간단하면서도 효과적인 전략인 부정 토큰 필터링을 제안했어요.

제안된 방법은 추론 작업에서 기존 그룹 기반 RL 기법과 비슷한 성능을 보였고, 에이전트 작업에서는 더 강력한 성능을 보여줬어요. 이 연구는 그룹 기반 RL의 한계를 극복하고 단일 롤아웃 학습의 가능성을 제시하며, LLM 훈련 방식에 새로운 시각을 제공해요.

새로운 부정 토큰 필터링 전략은 기존 RLVR 방법의 데이터 효율성을 개선하고, 더 안정적인 학습을 가능하게 하며, 다양한 에이전트 작업에 적용될 수 있다는 점을 시사해요.

##강화학습##RLVR##LLM##연구

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기