연구진은 온폴리시 표현 증류(OPRD)를 제안하며, 기존 출력 공간 증류 방식의 한계를 극복하고자 했습니다. OPRD는 학생 모델과 교사 모델의 중간층 표현을 정렬하여 학습하며, 이를 통해 샘플링 분산 문제를 해결하고 풍부한 정보를 활용합니다. 실험 결과, OPRD는 AIME 2024/2025 및 AIMO에서 학생-교사 격차를 줄이고, 학습 속도를 향상시키며 메모리 사용량을 절감했습니다.