Pulse · AI 뉴스

VLMs의 적대적 공격 탐지를 위한 플러그 앤 플레이 방화벽으로서의 희소 오토인코더

SAEgis · 2026-05-08

연구진은 VLMs의 안전성 문제를 해결하기 위해 희소 오토인코더(SAE) 기반의 새로운 공격 탐지 프레임워크인 SAEgis를 제안했어요.

SAEgis는 사전 학습된 VLM에 SAE 모듈을 삽입하여 학습 과정에서 공격 관련 신호를 자연스럽게 포착하고, 알려지지 않은 공격 샘플에 대해서도 정확하게 적대적 공격 여부를 판단할 수 있도록 합니다.

연구 결과, SAEgis는 다양한 환경에서 기존 방법보다 뛰어난 성능을 보였으며, 특히 도메인 간 일반화 성능이 크게 향상되었어요.

##VLM##적대적공격##보안##희소오토인코더##SAEgis

매일 핵심 AI 소식을 한국어로, 빠르게