Pulse · AI 뉴스

LLM은 보지 못하는 인간의 시각: 적대적 텍스트 공격을 위한 인간 인지 활용

arXiv cs.LG · 2026-06-09

연구진은 LLM 기반 콘텐츠 검열 시스템이 인간의 시각적 단서를 간과하여 유해 콘텐츠를 놓치는 취약점을 발견했어요.

Human-Perceptible Adversarial Attacks (HPAA)를 통해 텍스트의 서식(띄어쓰기, 강조, 배치)을 조작하여 인간은 유해하다고 인식하지만 LLM은 감지하지 못하게 만들 수 있어요.

실험 결과, 공격 대상 시스템 10곳에서 3번의 검열 요청만에 86%의 인간 인지율을 유지하면서 1% 미만의 검출률을 기록했어요.

연구는 현재 LLM 기반 검열 시스템의 근본적인 한계를 드러내고 인간의 시각적 이해에 부합하는 검열 시스템의 필요성을 강조해요.

##LLM##콘텐츠검열##적대적공격##인공지능##보안

매일 핵심 AI 소식을 한국어로, 빠르게