연구진은 기존 PII 탐지 자료의 단편성을 극복하기 위해 10개의 공개 데이터셋을 통합한 PIIBench를 발표했어요. PIIBench는 48가지의 표준 PII 개체 유형에 대한 236만 건 이상의 어노테이션 시퀀스와 335만 건의 개체 언급을 포함하고 있어요. 현재까지의 평가 결과, 공개된 시스템들은 PIIBench에서 낮은 F1 점수를 기록하며, PII 탐지 시스템의 도메인 특화 문제를 명확히 보여주고 있어요.