연구진은 의미적으로 동등한 패러프레이즈가 금융 감성 분류기를 속일 수 있음을 확인했어요. 패러프레이즈는 강력한 참조 임베딩 하에서 원본과 유사하지만, 대상 모델의 표현을 변경하여 예측 클래스를 바꿀 수 있어요.
두 모델 구조를 포착하는 패러프레이즈 교란의 연속적인 로컬 모델을 개발하여 최악의 로컬 변위를 분석했어요. 이는 두 임베딩 맵의 야코비안으로 구성된 행렬 연필의 일반화 고유값에 의해 결정돼요.
결과적인 공격 가능성 지수 $λ^*(x)$는 로컬 패러프레이즈 기하학 및 선택된 임베더에 내재되어 있으며, affine 리드아웃에 대한 예측 전환 조건을 제공하고, 보수적인 모집단 및 유한 샘플 공격 가능성 인증을 지원해요.