Pulse · AI 뉴스

SDPO는 밀도가 높을수록 더 나은 성능을 내지 않는다: 지속적인 후속 훈련의 한계

SDPO · 2026-07-02

연구진이 지속적인 후속 훈련에서 SDPO(Self-Distillation Policy Optimization)의 한계를 분석했어요. SDPO는 안정적인 환경에서는 빠르게 특화되지만, 데이터 분포가 바뀌면 성능이 저하돼요. 기존 방식보다 보수적으로 적응하는 GRPO(Generalized Reinforcement Learning with Policy Optimization)가 더 나은 성능을 보여요.

SDPO는 밀도가 높은 자기 증류를 통해 파라미터 공간과 응답 공간에서 더 큰 변화를 일으켜, 원치 않는 패턴을 증폭시킬 수 있어요.

연구 결과, SDPO는 안정적인 목표와 토큰 수준의 감독이 있을 때 특화를 가속화할 수 있지만, 지속적인 후속 훈련의 안정화 수단으로 맹목적으로 사용해서는 안 돼요. 관련 코드는 GitHub에서 확인할 수 있어요.

##SDPO##지속적학습##강화학습##continuallearning

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기