Pulse · AI 뉴스

PBSD: 보상 정규화를 통한 자기 증류, KL 매칭을 넘어

PBSD · 2026-05-07

연구진은 강화 학습의 효율적인 대안인 온-정책 증류의 한계를 극복하기 위해 새로운 자기 증류 방법인 PBSD(Preference-Based Self-Distillation)를 제안했습니다.

PBSD는 기존 KL 매칭 방식 대신 보상 정규화를 통해 목표 정책을 개선하고, 교사 모델과의 선호도 차이를 최적화합니다.

수학적 추론 및 도구 사용 벤치마크에서 PBSD는 기존 자기 증류 방법보다 뛰어난 성능을 보이며, 안정적인 학습을 유지했습니다.

##자기증류##강화학습##PBSD##보상정규화##모델최적화

매일 핵심 AI 소식을 한국어로, 빠르게