연구진은 강화 학습과 모방 학습의 결합으로 역 KL(RKL)이 온-정책 LLM 증류에 적합하다고 판단했지만, 학생과 교사 분포가 크게 다를 경우 부정적인 피드백이 불분명해 개선이 어렵다는 한계를 발견했습니다.
이 문제를 해결하기 위해 연구진은 학생의 실행 결과를 기반으로 교사 예측을 활용하여 밀도 있는 방향 지침을 통합하는 온-정책 알고리즘인 교사 지도 정책 최적화(TGPO)를 제안했습니다.
복잡한 추론 벤치마크 실험 결과, TGPO는 표준 기준을 능가하는 성능을 보였으며 다양한 교사 모델에 강건함을 입증했습니다.