Transformer 모델의 안전한 추론에서 Shuffling 방어 기법은 중간 활성화를 무작위로 섞어 모델 가중치 노출을 막는 방법입니다.
연구 결과, 공격자가 섞인 활성화를 정렬하여 모델 가중치를 추출할 수 있으며, Pythia-70m과 GPT-2 모델에서 평균 제곱 오차가 10^-9에서 10^-6 사이로 나타났습니다.
약 1달러의 비용으로 공격자는 모델 가중치를 추출하여 오라클 가중치와 비교했을 때 L1-norm 차이가 10^-4에서 10^-2 사이로 나타났습니다.