연구팀은 모델 증류 공격과 모델 제공자의 대응 전략 간의 미니맥스 게임을 연구했어요. 공격 학생은 유용성 제약 조건 하에, 방어 교사는 증류에 가장 유용한 출력을 억제하는 방어 템플릿을 사용해요. Product-of-Experts (PoE) 방어는 간단한 순방향 패스만으로도 효과적입니다.
적응형 평가는 기존 평가 방식보다 증류 공격에 더 취약하며, 최신 방어 모델에서도 상당한 성능 차이를 보였어요. GSM8K 및 MATH 데이터셋에서 적응형 학생은 기존 평가에서 예상보다 훨씬 더 큰 성능을 회복했어요.
강력한 증류 공격을 막기는 어렵고, 증류 방어 기술의 진척은 적응형 학생을 기준으로 평가해야 한다는 점을 강조하며, 관련 코드는 GitHub에서 확인할 수 있습니다.