Pulse · AI 뉴스

LoRA 어댑터 백도어의 토큰 수준 일반화: 공격 특성 분석 및 행동 기반 탐지

arXiv cs.LG · 2026-05-29

연구진은 Qwen 2.5 1.5B 프롬프트 주입 분류기를 대상으로 학습 데이터 오염을 통해 LoRA 어댑터를 백도어링하는 공격을 실험했어요. 오염된 데이터의 작은 비율로도 기존 작업 성능을 유지하면서 백도어를 활성화할 수 있었어요.

토큰 특징 수준에서 일반화되는 백도어가 나타났는데, 특정 RFC 참조 모델은 어떤 RFC 참조에서도 활성화되지만 구조적으로 동일한 ISO, OWASP, CWE, NIST 인용에는 작동하지 않았어요.

연구진은 다양한 요인에 따른 공격 특성을 분석하고, 다중 시드 어댑터 집합에 대한 상호 보완적인 두 가지 탐지 방법을 평가했어요.

행동 기반 탐지기는 트리거 토큰의 이웃과 겹치는 프로브 배터리를 사용해 오염된 어댑터와 정상 어댑터를 완벽하게 구분하고, 프로브 구성에 강건성을 보였어요.

##백도어##LoRA##LLM보안##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게