연구진이 LLM 탈 jailbreak 공격에 대응하는 새로운 프레임워크 'THRD'를 공개했어요. THRD는 이전 방식과 달리 모델 재학습 없이, 대화 흐름 속 위험 누적을 모델링하여 다중 턴 공격을 방어해요. 실험 결과, THRD는 ASR을 0.2~4.0%까지 낮추면서 MMLU와 GSM8K 성능 저하를 1.5% 이내로 유지했어요.