Pulse · AI 뉴스

LLM 데이터 포이즈닝 공격, 재작성으로 방어: Benign Projections 기법

Benign Projections · 2026-05-18

연구진은 LLM 데이터 포이즈닝 공격(BA)에 대응하기 위해 LLM 재작성 기법인 'Benign Projections' (OBBR)을 제안했어요. OBBR은 악성 콘텐츠를 무해한 프롬프트 공간으로 투영하여 기존 방어 기법보다 안전성을 평균 51% 향상시켰어요.

OBBR은 'open-book benign rewriting' 방식으로, 기존 방식 대비 악성 콘텐츠가 재작성된 결과물의 무해성 확률을 높이는 것을 이론적으로 증명했어요.

OBBR은 계산 효율성이 높고, 자연어 처리 성능 저하 없이, 트리거 기반이 아닌 데이터 포이즈닝 공격까지 방어할 수 있다는 장점이 있어요.

##LLM##데이터포이즈닝##보안##AI##재작성

매일 핵심 AI 소식을 한국어로, 빠르게