Pulse · AI 뉴스

EvoSafety: 외부 공격-방어 공진 진화 기반 모델 불문 LLM 안전 강화

EvoSafety · 2026-05-13

EvoSafety는 LLM의 안전 취약점을 지속적으로 탐색하고 개선하기 위한 새로운 프레임워크입니다. 공격 정책에 적대적 기술 라이브러리를 장착하여 공격 벡터 진화를 지원하고, 모델별 안전 미세 조정 대신 경량 보조 방어 모델을 활용하여 모델 불문 안전 개선을 가능하게 합니다.

EvoSafety는 Steer 모드와 Guard 모드를 모두 지원하며, Steer 모드는 LLM의 내재적 방어 메커니즘을 활성화하고, Guard 모드는 유해한 입력을 직접 필터링합니다. 실험 결과, Guard 모드에서 99.61%의 방어 성공률을 달성하여 Qwen3Guard-8B보다 14.13% 향상된 성능을 보였습니다.

이 연구는 잠재적으로 유해한 텍스트를 포함하고 있으며, 단 37.5%의 파라미터만으로도 뛰어난 방어 성능을 확보하며, 유해한 쿼리에 대한 추론 성능을 유지합니다.

##LLM##안전##방어##공진##EvoSafety

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기