DOPD는 학생 모델이 교사 모델의 능력을 더 효과적으로 학습하도록 돕는 새로운 증류 패러다임입니다. 기존 증류 방식의 한계인 '특권 환상' 문제를 해결하기 위해, 교사와 학생 모델의 장점을 결합하여 토큰별 감독 신호의 강도를 동적으로 조절합니다. LLM과 VLM 환경에서 실험 결과, 기존 방식보다 성능이 우수했으며 안정성, 강건성, 지속적 학습 능력도 향상되었습니다.
DOPD는 교사와 학생 모델의 '장점 격차'와 '정보 비대칭 격차'를 분리하여, 학생 모델이 진정으로 필요한 능력을 학습하도록 돕습니다. 각 토큰은 교사 또는 학생 모델로부터 다양한 강도와 전략의 감독 신호를 받아, 능력 전달과 함께 보조 신호를 제공받습니다.
DOPD는 토큰별 감독 신호의 비균일성 문제를 완화하고, 교사 모델의 능력을 학생 모델이 더 잘 모방할 수 있도록 합니다. 다양한 실험을 통해 기존 증류 방식 대비 우수한 성능을 입증했습니다.