연구진은 LLM의 안전 기능을 우회하는 제어 탈출 공격에 대응하기 위해 LASH(LLM Adaptive Semantic Hybridization) 프레임워크를 개발했어요.
LASH는 다양한 공격 기법의 결과를 재사용 가능한 시드 프롬프트로 활용하고, 각 요청에 맞춰 적응적으로 조합하는 방식이에요.
JailbreakBench 테스트에서 LASH는 5개의 기존 기법보다 높은 성공률(평균 84.5%)을 기록하며, 30번의 타겟 쿼리로 목표 달성했어요.