연구진은 여러 분야의 강화 학습(RL) 교사 역량을 하나로 통합하는 새로운 방법인 MOPD(Multi-teacher On-Policy Distillation)를 제안했어요.
MOPD는 각 분야별 전문 RL을 먼저 실행하여 교사 집합을 얻은 뒤, 학생 모델이 자체적으로 생성한 데이터를 활용해 역량을 증류하는 방식이에요.
Qwen3-30B-A3B 모델에서 MOPD는 기존 방법들보다 뛰어난 성능을 보였으며, 산업 규모의 MiMo-V2-Flash 모델의 역량 통합에도 활용됐어요.