Pulse · AI 뉴스

언어 피드백을 활용한 변분 정책 증류

VPD · 2026-05-18

연구진은 강화 학습 시 검증 가능한 보상(RLVR)의 희소한 결과 신호 문제를 해결하기 위해 언어 피드백을 활용한 변분 정책 증류(VPD) 프레임워크를 제안했어요.

VPD는 교사 모델을 지속적으로 개선하여 텍스트 피드백을 실행 가능한 신호로 변환하고, 학생 모델은 이 신호를 활용하여 자체적으로 학습해요.

과학적 추론 및 코드 생성 작업에서 기존 방법보다 우수한 성능을 보였으며, 엄격한 수학적 추론 환경에서도 효과를 입증했어요.

연구 결과는 언어 피드백 기반 자기 증류의 한계를 보여주며, 환경 기반 강화 학습과의 차이를 밝혀냈어요.

##강화학습##언어모델##자기증류##VPD
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기