Pulse · AI 뉴스

모델 증류 공격 대응 전략 연구: 적응형 공격과 효율적인 방어

arXiv cs.AI · 2026-05-22

연구팀은 모델 증류 공격과 모델 제공자의 대응 전략 간의 미니맥스 게임을 연구했어요. 공격 학생은 유용성 제약 조건 하에, 방어 교사는 증류에 가장 유용한 출력을 억제하는 방어 템플릿을 사용해요. Product-of-Experts (PoE) 방어는 간단한 순방향 패스만으로도 효과적입니다.

적응형 평가는 기존 평가 방식보다 증류 공격에 더 취약하며, 최신 방어 모델에서도 상당한 성능 차이를 보였어요. GSM8K 및 MATH 데이터셋에서 적응형 학생은 기존 평가에서 예상보다 훨씬 더 큰 성능을 회복했어요.

강력한 증류 공격을 막기는 어렵고, 증류 방어 기술의 진척은 적응형 학생을 기준으로 평가해야 한다는 점을 강조하며, 관련 코드는 GitHub에서 확인할 수 있습니다.

##모델보안##증류공격##적응형학습##PoE##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기