Pulse · AI 뉴스

활성화 차이 분석으로 백도어 감지: SAE 아키텍처 비교

SmolLM2-360M · 2026-05-08

연구진은 언어 모델의 백도어 공격을 탐지하기 위해 Crosscoder와 Differential SAE(Diff-SAE)라는 두 가지 희소 자동 인코더 아키텍처를 조사했습니다.

Diff-SAE는 Crosscoder에 비해 백도어 격리 성능이 월등히 높았으며, 완벽한 정밀도와 거짓 양성률 0%를 기록했습니다.

연구 결과는 백도어가 희소한 특징 활성화가 아닌 방향성 활성화 변화로 나타난다는 점을 시사하며, AI 안전 모니터링 및 모델 조작 탐지를 위한 해석 가능성 도구 개발에 중요한 시사점을 제공합니다.

##백도어##메커니즘해석##SAE

매일 핵심 AI 소식을 한국어로, 빠르게