Pulse · AI 뉴스

MAD-OPD: 다중 에이전트 토론 기반 온-정책 증류를 통한 성능 한계 극복

Qwen · 2026-05-02

MAD-OPD는 온-정책 증류의 성능 한계를 극복하기 위해 다중 에이전트 토론을 활용하는 새로운 방법입니다. 토론을 통해 교사 모델의 오류를 보완하고, 학생 모델의 성능을 향상시킵니다.

MAD-OPD는 에이전트 기반 작업에서 발생하는 단계별 오류의 누적을 안정화하기 위해 OPAD(On-Policy Agentic Distillation)를 도입했습니다. 이를 통해 장기적인 학습 안정성을 확보했습니다.

Qwen3 및 Qwen3.5 모델을 활용한 6가지 구성과 5가지 벤치마크 테스트에서 MAD-OPD는 모든 구성에서 1위를 차지하며, 기존 단일 교사 증류 방식 대비 평균 2.4%~3.7%의 성능 향상을 보였습니다.

##온정책증류##다중에이전트##에이전트학습##Qwen##OPAD

매일 핵심 AI 소식을 한국어로, 빠르게