연구진은 LLM 기반 콘텐츠 검열 시스템이 인간의 시각적 단서를 간과하여 유해 콘텐츠를 놓치는 취약점을 발견했어요.
Human-Perceptible Adversarial Attacks (HPAA)를 통해 텍스트의 서식(띄어쓰기, 강조, 배치)을 조작하여 인간은 유해하다고 인식하지만 LLM은 감지하지 못하게 만들 수 있어요.
실험 결과, 공격 대상 시스템 10곳에서 3번의 검열 요청만에 86%의 인간 인지율을 유지하면서 1% 미만의 검출률을 기록했어요.
연구는 현재 LLM 기반 검열 시스템의 근본적인 한계를 드러내고 인간의 시각적 이해에 부합하는 검열 시스템의 필요성을 강조해요.