Pulse · AI 뉴스

AI 웹 스크레이퍼 식별: 캐나리 토큰 활용

arXiv cs.AI · 2026-05-14

연구팀은 LLM에 데이터를 제공하는 웹 스크레이퍼를 정확하게 식별하는 새로운 기술을 제안했습니다. 이 기술은 동적 웹사이트에 고유한 캐나리 토큰을 제공하고, LLM이 해당 토큰을 포함하는 출력을 생성하는지 확인하여 스크레이퍼를 식별합니다. 실험 결과, 공개되지 않은 스크레이퍼를 포함하여 여러 스크레이퍼와 LLM 간의 연결을 밝혀냈습니다.

연구팀은 22개의 LLM 시스템을 대상으로 실험을 진행했으며, 캐나리 토큰을 활용한 접근 방식이 스크레이퍼를 식별하는 데 효과적임을 입증했습니다. 이 방법은 웹사이트 소유자가 스크레이핑을 제한하려는 경우, 스크레이퍼를 식별하는 데 유용하게 활용될 수 있습니다.

이 연구는 권한이 없는 제3자가 어떤 스크레이퍼가 어떤 LLM에 데이터를 제공하는지 추론할 수 있는 가능성을 열어, 원치 않는 스크레이핑을 더 효과적으로 통제할 수 있도록 돕습니다.

##LLM##스크레이핑##캐나리토큰##AI##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기