연구진이 개인 정보 보호를 위한 자동 비식별화 시스템 개발 및 평가를 지원하는 다국어 대화 데이터셋 'DialogPII'를 공개했어요.
DialogPII는 긴급 상황, 의료, 상담, 고객 지원 등 8가지 시나리오를 포함하며, 19가지 개인 정보 유형, 11개 언어를 지원해요.
대규모 언어 모델을 활용해 합성 대화를 생성하고, 음성 변환 및 자동 음성 인식(ASR) 기술을 적용하여 텍스트와 음성 데이터를 함께 제공하며, baseline 모델과 성능 검증 결과도 함께 공개했어요.