기계 생성 텍스트(MGT) 탐지는 온라인 정보 생태계를 규제하는 데 중요하지만, 기존 탐지기는 지도 감독이 부족한 환경에서 성능이 저조하고 적대적 공격에 취약합니다.
연구진은 위협 모델링 관점에서 공격자의 시각으로 탐지기 취약점을 연구하고, RAG(Retrieval-Augmented Generation)를 활용하여 인간과 유사한 적대적 예제를 제작하는 공격자와 대비적 목표를 가진 탐지기를 결합하는 REACT 프레임워크를 제안했습니다.
4개의 데이터 세트에서 실험한 결과, REACT는 8개의 최첨단(SOTA) 탐지기 대비 평균 탐지 F1 점수를 4.95점 향상시키고 4개의 강력한 공격에 대한 평균 공격 성공률(ASR)을 3.66%p 감소시켰습니다.