Pulse · AI 뉴스

LLM 증류를 위한 교사 지도 정책 최적화

TGPO · 2026-05-13

연구진은 강화 학습과 모방 학습의 결합으로 역 KL(RKL)이 온-정책 LLM 증류에 적합하다고 판단했지만, 학생과 교사 분포가 크게 다를 경우 부정적인 피드백이 불분명해 개선이 어렵다는 한계를 발견했습니다.

이 문제를 해결하기 위해 연구진은 학생의 실행 결과를 기반으로 교사 예측을 활용하여 밀도 있는 방향 지침을 통합하는 온-정책 알고리즘인 교사 지도 정책 최적화(TGPO)를 제안했습니다.

복잡한 추론 벤치마크 실험 결과, TGPO는 표준 기준을 능가하는 성능을 보였으며 다양한 교사 모델에 강건함을 입증했습니다.

##LLM##증류##강화학습##정책최적화##교사지도

매일 핵심 AI 소식을 한국어로, 빠르게