연구진은 합성 벤치마크에서 효과적인 프롬프트 주입 방어 기법이 실제 기업 문서에는 제대로 작동하지 않는다는 점을 입증했어요. SEC 제출물, 연방 규정, PubMed 초록, arXiv 논문, GitHub 사후 분석 등 5개 전문 분야의 실제 문서를 활용한 벤치마크를 통해 이를 확인했어요.
기존 최강 방어 기법인 패러프레이징은 실제 문서에서 공격 성공률 감소 효과가 통계적으로 유의미하지 않았고, 유용성은 91.8%에서 82.8%로 하락했어요. 연구진은 출처 기반 검색 살균 파이프라인인 PARSE를 개발했어요.
PARSE는 문장별 주입 가능성을 분류하고, 구조화된 사실을 추출하여 재작성하며, 일관성 검사 루프를 통해 사실 보존을 검증하며, 59%의 실제 기업 문서를 경량화된 경로로 전환하여 고위험 문서에 컴퓨팅 자원을 집중해요. PARSE는 공격 성공률을 15.6%로 낮춰 기준선인 25.4%보다 38% 감소시켰고, 유용성은 86.9%를 유지했어요.