Pulse · AI 뉴스

MOPD: 다중 교사 온라인 정책 증류를 통한 LLM 역량 통합

Qwen · 2026-06-29

연구진은 여러 분야의 강화 학습(RL) 교사 역량을 하나로 통합하는 새로운 방법인 MOPD(Multi-teacher On-Policy Distillation)를 제안했어요.

MOPD는 각 분야별 전문 RL을 먼저 실행하여 교사 집합을 얻은 뒤, 학생 모델이 자체적으로 생성한 데이터를 활용해 역량을 증류하는 방식이에요.

Qwen3-30B-A3B 모델에서 MOPD는 기존 방법들보다 뛰어난 성능을 보였으며, 산업 규모의 MiMo-V2-Flash 모델의 역량 통합에도 활용됐어요.

##LLM##강화학습##MOPD##역량통합

매일 핵심 AI 소식을 한국어로, 빠르게