Pulse · AI 뉴스

LLM 미세 조정 시 백도어 샘플 필터링을 위한 Gradient Spectral Entropy: GradSentry

GradSentry · 2026-05-26

연구진이 LLM 미세 조정 시 백도어 공격을 방어하는 새로운 방법 'GradSentry'를 제안했어요. GradSentry는 샘플별 기울기의 스펙트럴 엔트로피를 분석하여 백도어 샘플을 식별합니다.

기존 클러스터링 기반 필터링 방식과 달리, GradSentry는 샘플 간 비교나 클러스터링 없이 기울기 스펙트럼을 통해 백도어 샘플의 특징을 파악합니다.

LoRA와 같은 효율적인 미세 조정 방식에도 적용 가능하며, 1%~90%의 높은 비율의 백도어 샘플에서도 효과적이고 계산 비용도 적습니다 (7B 모델 기준 20~50ms).

##LLM##미세조정##백도어##보안##GradSentry
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기