연구진은 LLM 워터마크가 여러 모델을 사용하는 사용자에게는 쉽게 무력화될 수 있다는 취약점을 발견했어요. 워터마크는 출력 분포를 교란시키는데, 여러 모델 제공업체의 교란이 독립적일 경우 평균을 통해 워터마크가 제거돼요.
WASH(Watermark Attenuation via Statistical Hybridisation) 기법을 통해 어휘 불일치, 토큰화 차이 등 앙상블 생성의 어려움을 해결하고, 3개 모델 평균만으로 워터마크 탐지 z-score를 2 이하로 낮출 수 있었어요.
실험 결과, 3개 모델 앙상블은 탐지 성능을 저하시키면서도 품질을 27.5% 향상시키고, 기존 방식보다 6배 빠른 속도를 보여줘서 워터마크 기반 AI 텍스트 탐지의 근본적인 한계를 시사해요.