Bordair API 개발자가 6개월간 프롬프트 인젝션 공격을 분석한 결과, 복잡한 기술보다 단순한 패턴이 모델을 무력화하는 경우가 많다는 사실을 밝혔습니다.
멀티턴 설정, 순방향 모멘텀 착취, 역할 재정의 방식은 개별 프롬프트로는 탐지하기 어렵지만, 대화 맥락 속에서 공격이 이루어집니다.
Bordair API는 텍스트, 이미지, 문서, 오디오를 실시간으로 분석하며, 월 1만 건의 무료 스캔을 제공합니다.
연구 결과, 단일 메시지 분류기만으로는 충분하지 않으며, 대화 맥락 추적 기능이 더 효과적일 수 있습니다.
Bordair는 공격 성공률을 측정하는 벤치마크 도구를 공개했으며, 공격 성공률이 5% 이상이면 검토해야 합니다.