연구진은 복합 추론 능력을 향상시키는 온-정책 하니스 셀프 증류(OPHSD) 방법을 제시했어요. OPHSD는 하니스 기반의 추가적인 감독 신호를 활용하여 모델 자체를 학습시켜, 하니스 기능을 모델에 통합하는 방식이에요. 텍스트 분류 및 수학적 추론 작업에서 기존 방법 대비 성능이 향상되었으며, 하니스 재사용은 오히려 성능 저하를 유발할 수 있음을 확인했어요.