본문은 온폴리시 증류가 추론 모델 훈련에 유용한 정보를 제공하지만, 어떤 조건에서 도움이 되고 해로운지 명확하지 않다는 문제점을 다룹니다.
연구진은 증류 가이드가 올바른 결과보다 잘못된 결과에 더 잘 맞추어진다는 점을 발견했으며, 최적의 증류 컨텍스트는 학생 모델의 능력과 목표 작업에 따라 달라집니다.
연구진은 토큰별, 질문별, 교사 모델별로 분석하는 새로운 진단 프레임워크를 도입하여 증류 설정의 효과를 평가하고, 토큰별 이상적인 기울기를 추정하는 알고리즘을 개발했습니다.