MAD-OPD는 온-정책 증류의 성능 한계를 극복하기 위해 다중 에이전트 토론을 활용하는 새로운 방법입니다. 토론을 통해 교사 모델의 오류를 보완하고, 학생 모델의 성능을 향상시킵니다.
MAD-OPD는 에이전트 기반 작업에서 발생하는 단계별 오류의 누적을 안정화하기 위해 OPAD(On-Policy Agentic Distillation)를 도입했습니다. 이를 통해 장기적인 학습 안정성을 확보했습니다.
Qwen3 및 Qwen3.5 모델을 활용한 6가지 구성과 5가지 벤치마크 테스트에서 MAD-OPD는 모든 구성에서 1위를 차지하며, 기존 단일 교사 증류 방식 대비 평균 2.4%~3.7%의 성능 향상을 보였습니다.