Pulse · AI 뉴스

숨어있는 유해성 공격: 중국어 암묵적 강화 및 은폐 재작성을 통한 난이도 증가

CITA · 2026-05-21

연구진이 중국어 LLM의 유해성 평가를 위한 새로운 공격 기법 'CITA'를 제안했어요. CITA는 의도 파악 학습, 암묵적 유해성 강화, 표면 변형 재작성 3단계를 거쳐 기존 검출기를 속이는 것을 목표로 합니다. CITA 공격에 노출된 7개의 검출기는 평균 69.48%의 오탐율을 기록하며, 인간 평가에서도 유해성이 유지되고 회피성이 증가하는 것을 확인했어요.

##LLM##중국어##유해성##CITA##보안
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기