연구진이 LLM 미세 조정 시 백도어 공격을 방어하는 새로운 방법 'GradSentry'를 제안했어요. GradSentry는 샘플별 기울기의 스펙트럴 엔트로피를 분석하여 백도어 샘플을 식별합니다.
기존 클러스터링 기반 필터링 방식과 달리, GradSentry는 샘플 간 비교나 클러스터링 없이 기울기 스펙트럼을 통해 백도어 샘플의 특징을 파악합니다.
LoRA와 같은 효율적인 미세 조정 방식에도 적용 가능하며, 1%~90%의 높은 비율의 백도어 샘플에서도 효과적이고 계산 비용도 적습니다 (7B 모델 기준 20~50ms).