연구진은 Qwen 2.5 1.5B 프롬프트 주입 분류기를 대상으로 학습 데이터 오염을 통해 LoRA 어댑터를 백도어링할 수 있음을 입증했어요. 오염된 데이터의 작은 비율로도 성능 저하 없이 백도어를 활성화할 수 있어요. 백도어는 구조적 패턴이 아닌 토큰 특징 수준에서 일반화되며, 특정 RFC 레퍼런스에 대해 학습된 모델은 다른 구조적 인용문에도 반응해요.
공격은 기본 모델 규모, 패밀리, LoRA 랭크, 트리거 문자열에 따라 특성을 분석하고, 다중 시드 어댑터 집합에 대한 상호 보완적인 두 가지 탐지 경로를 평가했어요. 이상치 간격과 평균 공격률을 기반으로 하는 행동 감지기는 트리거 토큰의 이웃과 겹치는 경우 완벽하게 오염된 어댑터를 구분하고, 겹치지 않는 경우에도 높은 재현율로 거짓 양성을 0으로 만들어요.
원인 분석 결과, 백도어는 중간에서 후반 레이어의 MLP 블록에 국한되며, down_proj가 가장 큰 원인으로 밝혀졌어요. 행동 감지기는 재조정 없이도 전송 가능하며, 가중치 수준의 감지기는 기본 모델에 맞춰 조정되어야 해요.