LLM 보안 전문가가 프롬프트 인젝션 탐지 로그에서 예상치 못한 패턴을 발견했어요.
3~6단어의 짧은 문장이 앞선 대화 맥락에서 파괴적인 역할을 하는 경우가 많아요. '우리가 합의한 게 뭐였지?'와 같은 문장이 대표적입니다.
개별 메시지가 아닌 대화 맥락을 분석해야 이러한 공격을 탐지할 수 있으며, 멀티모달 분석을 통해 일부 문제를 해결했습니다.
Bordair에서 관련 데이터셋과 API를 공개하며, 유사한 패턴을 경험한 다른 전문가들의 의견을 구하고 있어요.