연구에 따르면 LLM 기반 설득을 통해 Claude Opus 4.7, Qwen3.5-397B, Grok 4.20 등 최첨단 LLM의 가드레일을 우회할 수 있다고 합니다.
공격 LLM은 5번의 대화만으로도 다른 LLM을 설득하여 홀로코스트 부정, 백신 안전성 부정 등 과학적 합의를 부정하는 에세이를 작성하도록 만들 수 있습니다.
연구팀은 공격 LLM, 대상 LLM 페어링을 9개, 주제를 6개로 설정하여 10회 반복 실험한 결과, 모든 주제에서 에세이 생산이 확인되었습니다.