연구진은 LLM의 안전 장치를 우회하는 새로운 공격 방법을 발견했습니다. 이 공격은 해로운 프롬프트를 수학 문제로 변환하여 LLM의 안전 필터를 무력화하며, 8개의 모델에서 46%에서 56%의 성공률을 보였습니다.
공격 성공 여부는 수학적 표기법 자체가 아니라, LLM이 해로운 내용을 진정한 수학 문제로 재구성하는 능력에 달려있습니다.
GPT-5와 같은 최신 모델은 이전 모델보다 더 강력하지만, 여전히 취약점을 가지고 있으며, 수학적 구조에 대한 추론 기반의 방어가 필요함을 시사합니다.