Adversarial Humanities Benchmark (AHB)는 모델 안전 기능이 익숙하지 않은 프롬프트 형식을 벗어나도 유지되는지 평가하는 벤치마크입니다.
원래 공격의 성공률은 3.84%였지만, 변환된 방법은 36.8%에서 65.0%까지 높아 전체 성공률이 55.75%에 달했습니다.
이러한 문체적 취약점은 현재 안전 기술의 일반화 능력이 부족하다는 점을 시사하며, '해악 금지'에 대한 깊이 있는 이해가 최첨단 모델 안전성의 핵심 과제임을 보여줍니다.