연구자가 RAG/에이전트 시스템에 유용한 웹 페이지 정보 밀도 측정 실험을 진행했습니다.
100개의 URL을 대상으로 HTML-to-text 방식과 구조적 추출 방식의 토큰 수 감소 효과를 비교했습니다.
구조적 추출 방식은 평균 71.5%의 토큰 수를 줄였으며, 콘텐츠 보존 점수는 77.7/100점을 기록했습니다.
Claude Code 내부적으로 웹 페이지를 압축하는 Haiku 단계를 거치는 점이 발견되어 RAG/추출 도구 벤치마크 결과 해석에 주의해야 합니다.