연구진은 강화 학습에서 검증 가능한 보상을 활용하는 방법(RLVR)의 효율성을 높이기 위해 자기 조건부 신용 할당(SC-GRPO) 기법을 제안했어요. 기존 방법들은 불필요한 토큰에 신용을 할당하거나 중요한 추론 단계를 과소평가하는 문제를 가지고 있었어요.
SC-GRPO는 모델이 검증된 경로에 기반하여 자체적으로 생성한 KL 발산을 활용하여 GRPO 그래디언트에 곱하는 방식으로 작동하며, 이는 기존 GRPO 및 DAPO보다 성능이 우수했어요.
수학, 코드, 에이전트 작업 등 5가지 벤치마크에서 SC-GRPO는 GRPO보다 8.1%, DAPO보다 5.9% 더 높은 성능을 보였으며, 외부 교사 모델 없이도 온디맨드 성능을 향상시켰어요.