Pulse · AI 뉴스

LLM 레드팀 공격, 대화 프라이밍 진화적 탐색 전략 'ContextualJailbreak' 개발

ContextualJailbreak · 2026-05-04

연구진은 LLM의 안전 장치를 우회하는 레드팀 공격을 위한 새로운 전략 'ContextualJailbreak'을 개발했어요. 이 전략은 대화 프라이밍을 통해 LLM을 조작하며, 기존 방식보다 훨씬 높은 성공률을 보여요.

ContextualJailbreak는 5가지 변이 연산자를 활용하여 대화 프라이밍을 진화시키고, 0~5점의 해악 점수를 활용하여 부분적으로 유해한 응답도 탐색 과정에 반영해요.

gpt-oss:120B 모델에 대한 공격은 GPT-4o-mini, Gemini 3 Flash 모델에서도 효과를 보였지만, Claude Opus 4.7과 Claude Sonnet 4.6 모델에서는 낮은 성공률을 기록하며, 모델 제공업체 간의 안전성 차이를 보여줬어요.

##LLM##레드팀##보안##ContextualJailbreak##프라이밍

매일 핵심 AI 소식을 한국어로, 빠르게