Pulse · AI 뉴스

Transformer 모델의 Shuffling 방어 기법, 생각보다 취약하다

Pythia · 2026-05-06

Transformer 모델의 안전한 추론에서 Shuffling 방어 기법은 중간 활성화를 무작위로 섞어 모델 가중치 노출을 막는 방법입니다.

연구 결과, 공격자가 섞인 활성화를 정렬하여 모델 가중치를 추출할 수 있으며, Pythia-70m과 GPT-2 모델에서 평균 제곱 오차가 10^-9에서 10^-6 사이로 나타났습니다.

약 1달러의 비용으로 공격자는 모델 가중치를 추출하여 오라클 가중치와 비교했을 때 L1-norm 차이가 10^-4에서 10^-2 사이로 나타났습니다.

##Transformer##보안##머신러닝##모델추출

매일 핵심 AI 소식을 한국어로, 빠르게