Distribution Matching Distillation(DMD)는 모든 스케일에서 교사의 노이즈 분포를 정렬하여 사전 훈련된 확산 모델을 효율적인 few-step 생성기로 압축하는 방식입니다. 이론적으로 이러한 분포 수준의 감독은 교사의 특정 노이즈-데이터 페어링에 무관합니다. 하지만 고차원 설정에서 증류된 학생 모델은 교사의 원래 노이즈-데이터 페어링을 자발적으로 재현하는 '모방' 현상을 보입니다.
모방은 적대적 목표의 부산물도, 교사의 암기 결과도 아니며, 학생 모델의 제한된 기하학적 자유에서 비롯된 것으로 보입니다. DMD 학생 모델은 고차원 증류 과정에서 교사의 노이즈-데이터 페어링을 그대로 따라 하는 경향이 있습니다.