Pulse · AI 뉴스

자기 해결 학습: 검증 가능한 보상을 활용한 강화 학습에서 자기 조건부 신용 할당

SC-GRPO · 2026-06-17

연구진은 강화 학습에서 검증 가능한 보상을 활용하는 방법(RLVR)의 효율성을 높이기 위해 자기 조건부 신용 할당(SC-GRPO) 기법을 제안했어요. 기존 방법들은 불필요한 토큰에 신용을 할당하거나 중요한 추론 단계를 과소평가하는 문제를 가지고 있었어요.

SC-GRPO는 모델이 검증된 경로에 기반하여 자체적으로 생성한 KL 발산을 활용하여 GRPO 그래디언트에 곱하는 방식으로 작동하며, 이는 기존 GRPO 및 DAPO보다 성능이 우수했어요.

수학, 코드, 에이전트 작업 등 5가지 벤치마크에서 SC-GRPO는 GRPO보다 8.1%, DAPO보다 5.9% 더 높은 성능을 보였으며, 외부 교사 모델 없이도 온디맨드 성능을 향상시켰어요.

##강화학습##RLVR##SC-GRPO##LLM

매일 핵심 AI 소식을 한국어로, 빠르게