연구진은 지식 증류 시 비용이 많이 드는 긴 추론 과정을 압축하는 새로운 방법인 'Compress-Distill'을 제안했어요. Qwen3.5-397B-A17B와 gpt-oss-120B 모델이 생성한 28만 건의 추론 과정을 압축하여 원래 길이의 8.6~21%로 줄였어요.
압축된 추론 과정은 학습 토큰 수를 12~30%로 줄이고, 학습 속도를 2.0~7.6배 향상시키며, 추론 출력 길이를 3~19배 단축하는 효과를 보여줬어요.
압축 과정은 정확도와 효율성 간의 균형을 제공하며, 작은 규모의 모델에서 특히 효과적이었고, 0.8B 규모에서는 압축된 추론 과정과 원본 추론 과정의 정확도 격차가 줄어들었어요.