연구진은 강화 학습에서 언어 피드백을 활용하는 새로운 방법인 VPD(Variational Policy Distillation)를 제안했습니다. VPD는 기존 방식의 한계를 극복하기 위해 교사 모델을 지속적으로 개선하여 학습 효율성을 높입니다. 과학적 추론과 코드 생성 작업에서 VPD는 기존 방법보다 뛰어난 성능을 보였습니다.
VPD는 Variational Expectation-Maximization(EM) 문제를 활용하여 교사와 학생 정책을 동시에 발전시킵니다. 교사 모델은 언어 피드백을 기반으로 추적 결과를 개선하고, 학생 모델은 이를 바탕으로 토큰 분포를 학습합니다. 이를 통해 언어 피드백에서 얻을 수 있는 정보를 극대화합니다.
연구진은 VPD의 한계를 파악하기 위해 수학적 추론과 초기 학습 환경에서 테스트를 진행했습니다. VPD는 언어 피드백 기반 자가 증류의 근본적인 한계를 보여주며, 환경 기반 강화 학습과의 차이를 명확히 합니다.