Pulse · AI 뉴스

THRD: LLM 탈 jailbreak 방어를 위한 학습 불필요한 다중 턴 프레임워크

THRD · 2026-06-01

연구진이 LLM 탈 jailbreak 공격에 대응하는 새로운 프레임워크 'THRD'를 공개했어요.

THRD는 이전 방식과 달리 모델 재학습 없이, 대화 흐름 속 위험 누적을 모델링하여 다중 턴 공격을 방어해요.

실험 결과, THRD는 ASR을 0.2~4.0%까지 낮추면서 MMLU와 GSM8K 성능 저하를 1.5% 이내로 유지했어요.

##LLM##탈jailbreak##보안##프레임워크

매일 핵심 AI 소식을 한국어로, 빠르게