연구진은 강화 학습(RL) 에이전트 훈련 시 자체 증류(SDAR) 기법을 새롭게 제시했습니다. SDAR은 기존 OPSD의 불안정성을 개선하고, RL을 주된 최적화 방법으로 유지하면서 자체 증류를 보조 목표로 활용합니다.
Qwen2.5 및 Qwen3 모델을 ALFWorld, WebShop, Search-QA 환경에서 테스트한 결과, SDAR은 GRPO 대비 각각 9.4%, 7.0%, 10.2% 성능 향상을 보였습니다.
SDAR은 모델 규모에 관계없이 기존 RL-OPSD 혼합 방식보다 우수한 성능을 나타냈으며, 에이전트 훈련의 안정성을 높이는 데 기여합니다.