Anthropic의 Claude Opus 4.7이 Handlebars 템플릿 엔진의 삼중 대괄호 표현 방식이 구조적 역할 주입 취약점을 유발할 수 있음을 분석했어요. 이 취약점은 공격자가 제어하는 데이터가 채팅 역할 구분자를 포함하여 더 높은 권한의 턴을 위조하도록 할 수 있어요.
연구 결과, HTML 이스케이핑은 챗ML, Llama-3, XML 역할 구분자를 무력화하지만 Llama-2 [INST] 및 Markdown ### 구분자는 그대로 통과해요. GPT-3.5 Turbo는 삼중 대괄호 삽입 시 97%의 성공률로 공격 명령을 수행하며, 이는 HTML 이스케이핑의 한계를 보여줘요.
7개 구분자 패밀리, 2가지 공격 목표, 4개 모델(GPT-3.5 Turbo, GPT-4o mini, GPT-4.1 mini, Claude Haiku 4.5)을 대상으로 5760번의 실험을 진행했고, Claude Haiku 4.5는 대부분의 공격을 효과적으로 차단했어요.
HTML 이스케이핑은 일부 구분자만 보호하며, 데이터와 명령을 구조적으로 분리하는 데 충분하지 않으므로, 프롬프트 템플릿 보안에 대한 추가적인 고려가 필요해요.