Pulse · AI 뉴스

LLM 백도어 제거, 알려지지 않은 트리거까지 막는 방법 제시

arXiv cs.CL · 2026-06-03

연구진이 LLM 백도어 제거 시 특정 트리거 제거가 다른 백도어 제거에도 효과가 있다는 사실을 발견했어요. 세 가지 모델 패밀리에 대해 사전 훈련 또는 지속적 사전 훈련 방식으로 백도어를 주입하여 실험한 결과, 하나의 백도어를 제거하는 훈련이 다른 백도어 제거에도 영향을 미치는 것을 확인했어요. 연구진은 Cross Activation Shift Distance를 도입하여 다양한 훈련이 모델에 미치는 변화를 정량화했어요.

연구 결과, LLM 안전성을 강화하는 새로운 방향을 제시하며, 통제된 백도어를 의도적으로 주입하고 제거하여 알려지지 않은 백도어도 함께 제거할 수 있다는 가능성을 열었어요. 기존 방식은 백도어를 하나씩 제거해야 했지만, 새로운 방식은 하나의 제거로 여러 백도어를 동시에 제거할 수 있다는 장점이 있어요.

이는 LLM 보안 취약점을 해결하는 데 중요한 진전이며, 공격자가 몰래 주입한 백도어를 효과적으로 대응할 수 있는 기반을 마련했어요.

##LLM##백도어##보안##인공지능##연구

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기