Pulse · AI 뉴스

DialogPII: 개인 정보 탐지를 위한 다국어 합성 대화 데이터셋 공개

DialogPII · 2026-06-29

연구진이 개인 정보 보호를 위한 자동 비식별화 시스템 개발 및 평가를 지원하는 다국어 대화 데이터셋 'DialogPII'를 공개했어요.

DialogPII는 긴급 상황, 의료, 상담, 고객 지원 등 8가지 시나리오를 포함하며, 19가지 개인 정보 유형, 11개 언어를 지원해요.

대규모 언어 모델을 활용해 합성 대화를 생성하고, 음성 변환 및 자동 음성 인식(ASR) 기술을 적용하여 텍스트와 음성 데이터를 함께 제공하며, baseline 모델과 성능 검증 결과도 함께 공개했어요.

##데이터셋##개인정보보호##다국어##DialogPII##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기