Pulse · AI 뉴스

DoubtProbe: 구조 검증 및 의미 감사 기반 블랙박스 탈 jailbreak 방어

Qwen · 2026-06-15

연구진은 LLM의 탈 jailbreak 방어가 공격 패키징, 표현 재작성, 구조 조작에 취약하다는 점에 주목했어요.

DoubtProbe는 구조 검증과 의미 감사를 결합한 이중 분기 추론 방어 프레임워크로, 블랙박스 탈 jailbreak를 일관성 검사로 정의해요.

구조 분기는 요청의 구조적 표현을 추출하고 제약 조건 하에 재구성하여 정보 보존 실패를 감지하며, 의미 분기는 원본 프롬프트를 직접 감사해요.

Qwen2.5-72B에서 JBB 공격 성공률을 0.293에서 0.100으로, CodeAttack 공격 성공률을 0.152에서 0.001로 감소시키며 Llama-3.1-70B에서도 안정적인 성능을 보였어요.

##LLM##탈jailbreak##방어##구조검증##의미감사

매일 핵심 AI 소식을 한국어로, 빠르게