Pulse · AI 뉴스

MOPD: 다중 교사 온라인 정책 증류를 통한 LLM 역량 통합 방법

Qwen · 2026-06-29

연구진은 여러 분야의 RL 교사 역량을 하나로 통합하는 MOPD(Multi-teacher On-Policy Distillation)라는 새로운 LLM 후처리 패러다임을 제안했어요. MOPD는 각 분야에 특화된 RL을 먼저 실행해 교사 집합을 확보한 뒤, 학생 모델의 자체 롤아웃을 통해 증류하는 방식이에요.

Qwen3-30B-A3B 모델에서 MOPD는 Mix-RL, Cascade RL, Off-Policy Finetune, Param-Merge 등 기존 방법보다 뛰어난 성능을 보여줬고, 각 교사의 역량을 거의 그대로 흡수했어요.

MOPD는 MiMo-V2-Flash와 같은 산업 규모의 최첨단 모델 후처리에 적용되어 실용적인 가치를 입증했으며, 분야별 교사의 독립적인 개발을 가능하게 해요.

##LLM##MOPD##강화학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기