TwinGate는 LLM의 분해형 탈옥 공격을 막는 새로운 방어 프레임워크예요. 악의적인 의도를 여러 개의 무해한 질문으로 쪼개서 LLM을 속이는 공격에 대응해요. 비대칭 대비 학습(ACL)을 활용해 악성 조각들을 묶고, 또 다른 frozen encoder를 통해 오탐을 줄여요. TwinGate는 단일 패스만으로 작동하며, 기존 방식보다 훨씬 빠르고 효율적인 성능을 보여줘요.