연구진은 LLM의 안전 장치를 우회하는 새로운 공격 기법인 Semantic Representation Attack (SRA)을 제안했어요. SRA는 기존의 토큰 기반 최적화 방법을 벗어나 악의적인 의미 표현을 목표로 하는 LLM-agnostic 패러다임입니다.
SRA는 의미적 일관성이 세밀한 최적화와 모델 간 일반화 가능성을 보장한다는 이론적 근거를 바탕으로, Semantic Representation Heuristic Search (SRHS) 알고리즘을 통해 구현됐어요.
실험 결과, SRA는 26개의 오픈 소스 LLM에서 99.71%의 공격 성공률을 달성하며 뛰어난 전이성과 은밀성을 입증했어요.