연구진은 LLM 데이터 포이즈닝 공격(BA)에 대응하기 위해 LLM 재작성 기법인 'Benign Projections' (OBBR)을 제안했어요. OBBR은 악성 콘텐츠를 무해한 프롬프트 공간으로 투영하여 기존 방어 기법보다 안전성을 평균 51% 향상시켰어요.
OBBR은 'open-book benign rewriting' 방식으로, 기존 방식 대비 악성 콘텐츠가 재작성된 결과물의 무해성 확률을 높이는 것을 이론적으로 증명했어요.
OBBR은 계산 효율성이 높고, 자연어 처리 성능 저하 없이, 트리거 기반이 아닌 데이터 포이즈닝 공격까지 방어할 수 있다는 장점이 있어요.