연구진은 Skill-Conditioned Gated Self-Distillation (SGSD)을 제안하여 LLM 추론 성능을 향상시켰습니다. SGSD는 경험 기반 기술(skill)을 활용하여 교사 가이드라인을 검증하는 방식으로 작동합니다.
SGSD는 기술-실패 쌍을 검색하고, 다중 교사 풀을 구성하여 기술 기반으로 학생 모델의 추론 과정을 평가하며, 교사의 의견 일치를 통해 학생 모델을 학습시킵니다.
Qwen3-1.7B 모델에서 SGSD는 GRPO를 6.2% 앞서고, OPSD와 1.7% 차이로 경쟁력을 보이며, 관련 코드는 GitHub에서 확인할 수 있습니다.