Pulse · AI 뉴스

금융 텍스트 분류 모델의 의미적 적대적 공격에 대한 일반화 고유값 기하학

arXiv cs.LG · 2026-06-18

연구진은 의미적으로 동등한 패러프레이즈가 금융 감성 분류기를 속일 수 있음을 확인했어요. 패러프레이즈는 강력한 참조 임베딩 하에서 원본과 유사하지만, 대상 모델의 표현을 변경하여 예측 클래스를 바꿀 수 있어요.

두 모델 구조를 포착하는 패러프레이즈 교란의 연속적인 로컬 모델을 개발하여 최악의 로컬 변위를 분석했어요. 이는 두 임베딩 맵의 야코비안으로 구성된 행렬 연필의 일반화 고유값에 의해 결정돼요.

결과적인 공격 가능성 지수 $λ^*(x)$는 로컬 패러프레이즈 기하학 및 선택된 임베더에 내재되어 있으며, affine 리드아웃에 대한 예측 전환 조건을 제공하고, 보수적인 모집단 및 유한 샘플 공격 가능성 인증을 지원해요.

##금융##AI##보안##기하학##임베딩

매일 핵심 AI 소식을 한국어로, 빠르게