Pulse · AI 뉴스

추론 체인에서 검증 가능한 하위 문제로: 커리큘럼 강화 학습이 LLM 추론을 위한 신용 할당을 가능하게 합니다

Qwen · 2026-05-21

연구진이 SCRL(Subproblem Curriculum Reinforcement Learning)이라는 새로운 커리큘럼 강화 학습 프레임워크를 개발했어요. SCRL은 참조 추론 체인에서 검증 가능한 하위 문제를 파생하고 최종 하위 문제를 원래 문제로 고정하여 어려운 문제에 대한 부분적인 진행 상황을 활용합니다.

하위 문제 수준의 정규화를 통해 외부 잣대나 보상 모델 없이 더 세밀한 신용 할당이 가능하며, 어려운 문제를 그래디언트 사각지대에서 벗어나게 합니다.

Qwen3-4B-Base에서 GRPO보다 평균 정확도가 +4.1 포인트 향상되었고, AIME24, AIME25, IMO-Bench에서 pass@1은 +3.7 포인트, pass@64는 +4.6 포인트 향상되는 등 7개의 수학적 추론 벤치마크에서 우수한 성능을 보였어요.

##강화학습##LLM##추론##커리큘럼##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기