Meddies PII는 환자 식별 정보(PII)를 제거하면서도 임상 사실 정보를 유지하는 임상 비식별화 연구 모델 및 데이터셋이에요.
합성 데이터셋은 다양한 언어, 문서 유형, 길이, 형식, 식별자 유형을 포함하며, 실제 병원 데이터의 복잡성을 반영했어요.
모델은 완전한 비식별화 제품이 아니며, 병원 정책, 감사 로그, 검증, 인간 개입 등의 추가 조치가 필요해요.
연구팀은 모델을 Hugging Face에서 공개하여 검토 가능하도록 했고, 데모와 모델, 데이터셋도 함께 제공해요.