연구진이 강화 학습 프레임워크 SDPG(Self-Distilled Policy Gradient)를 개발했어요. SDPG는 그룹 상대 검증자 이점과 정규화된 표준 편차를 활용해 정책 그래디언트 학습을 개선해요. 기존 RLVR 및 self-distillation 방식보다 안정성과 성능이 향상된 것으로 확인됐어요.
SDPG는 언어 모델이 자체 생성을 감독하도록 우월한 컨텍스트에 의존하는 on-policy self-distillation 방식을 사용해요. 이를 통해 희소 보상 강화 학습에 대한 밀집형 감독 신호를 얻을 수 있어요.
GitHub에서 SDPG 코드를 확인할 수 있어요.