Pulse · AI 뉴스

Self-Distilled Policy Gradient (SDPG) 공개

SDPG · 2026-06-02

연구진이 강화 학습 프레임워크 SDPG(Self-Distilled Policy Gradient)를 개발했어요. SDPG는 그룹 상대 검증자 이점과 정규화된 표준 편차를 활용해 정책 그래디언트 학습을 개선해요. 기존 RLVR 및 self-distillation 방식보다 안정성과 성능이 향상된 것으로 확인됐어요.

SDPG는 언어 모델이 자체 생성을 감독하도록 우월한 컨텍스트에 의존하는 on-policy self-distillation 방식을 사용해요. 이를 통해 희소 보상 강화 학습에 대한 밀집형 감독 신호를 얻을 수 있어요.

GitHub에서 SDPG 코드를 확인할 수 있어요.

##강화학습##SDPG##self-distillation
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기