연구진은 LLM 워터마킹 시스템의 PRNG(Pseudo-Random Number Generator)를 공격하는 새로운 방법 'SeedHijack'을 개발했어요. 이 공격은 워터마크 키나 모델 로짓 정보 없이도 가능하며, 워터마크 신호를 증폭시키는 동시에 기존 검출기를 속일 수 있어요.
SeedHijack은 생성된 텍스트를 변경하지 않고 PRNG를 교체하여 작동하며, 텍스트 품질 저하 없이 워터마크 z-점수를 최대 2.42배까지 증가시킬 수 있어요. 이는 공급망 단계에서 이루어지기 때문에 기존 검출기를 우회할 수 있어요.
QRNG(Quantum Random Number Generator)를 사용하면 SeedHijack 공격을 완전히 무력화할 수 있으며, 워터마킹의 유용성은 그대로 유지할 수 있다고 연구진은 밝혔어요.