연구진은 여러 분야의 RL 교사 역량을 하나로 통합하는 MOPD(Multi-teacher On-Policy Distillation)라는 새로운 LLM 후처리 패러다임을 제안했어요. MOPD는 각 분야에 특화된 RL을 먼저 실행해 교사 집합을 확보한 뒤, 학생 모델의 자체 롤아웃을 통해 증류하는 방식이에요.
Qwen3-30B-A3B 모델에서 MOPD는 Mix-RL, Cascade RL, Off-Policy Finetune, Param-Merge 등 기존 방법보다 뛰어난 성능을 보여줬고, 각 교사의 역량을 거의 그대로 흡수했어요.
MOPD는 MiMo-V2-Flash와 같은 산업 규모의 최첨단 모델 후처리에 적용되어 실용적인 가치를 입증했으며, 분야별 교사의 독립적인 개발을 가능하게 해요.