연구진이 중국어 LLM의 유해성 평가를 위한 새로운 공격 기법 'CITA'를 제안했어요. CITA는 의도 파악 학습, 암묵적 유해성 강화, 표면 변형 재작성 3단계를 거쳐 기존 검출기를 속이는 것을 목표로 합니다. CITA 공격에 노출된 7개의 검출기는 평균 69.48%의 오탐율을 기록하며, 인간 평가에서도 유해성이 유지되고 회피성이 증가하는 것을 확인했어요.