연구진은 다회 대화에서 악의적 의도를 분산시켜 LLM을 공격하는 새로운 위협에 주목했습니다. Multi-Turn Intent Dataset (MTID)을 구축하여 공격 롤아웃과 안전한 부정적 사례를 매칭하고, 악의적 의도를 가능하게 하는 첫 번째 턴을 주석으로 달았습니다. TurnGate 모델은 기존 방식보다 우수한 성능을 보이며, 다양한 도메인과 공격 파이프라인에서 일반화됩니다.