연구진이 LLM의 안전 장치를 우회하는 새로운 탈옥 공격 방법 GAS-Leak-LLM을 제안했어요. 이 방법은 유전 알고리즘을 활용해 안전 제약 조건을 우회하는 악성 접미사를 자동으로 생성합니다. GAS-Leak-LLM은 모델 파라미터나 내부 정보에 접근하지 않는 블랙박스 환경에서 작동하며, 실제 배포 환경에서의 위협 시나리오를 반영합니다. 실험 결과, 기존 안전 장치의 취약점을 확인하고 GAS-Leak-LLM의 효과와 실용성을 입증했어요.