연구진은 강화 학습 시 검증 가능한 보상(RLVR)의 희소한 결과 신호 문제를 해결하기 위해 언어 피드백을 활용한 변분 정책 증류(VPD) 프레임워크를 제안했어요.
VPD는 교사 모델을 지속적으로 개선하여 텍스트 피드백을 실행 가능한 신호로 변환하고, 학생 모델은 이 신호를 활용하여 자체적으로 학습해요.
과학적 추론 및 코드 생성 작업에서 기존 방법보다 우수한 성능을 보였으며, 엄격한 수학적 추론 환경에서도 효과를 입증했어요.
연구 결과는 언어 피드백 기반 자기 증류의 한계를 보여주며, 환경 기반 강화 학습과의 차이를 밝혀냈어요.