LLM 학습 데이터에 민감 정보가 포함될 수 있어, 개인 정보 보호 규정 준수와 정보 유출 방지가 중요해요.
일본어는 영어에 비해 민감 정보 관련 연구가 부족한 상황이에요. 본 연구는 일본 개인 정보 보호법(APPI)에 따른 특별 주의 필요 개인 정보(SCPI) 탐지에 집중했어요.
LLM 기반 주석을 활용해 SCPI 데이터셋을 구축하고, 기계 학습 모델을 훈련하여 텍스트 내 SCPI를 빠르게 탐지하는 방법을 제시하며, 이는 일본어 텍스트 코퍼스에서 SCPI 탐지 연구의 첫 시도입니다.