연구진은 현대적인 임상 기록의 다양성을 반영하는 새로운 데이터셋 SHIELD를 구축하고, 이를 활용하여 기업 환경에 적합한 소형 언어 모델(SLM)을 개발했습니다.
SHIELD 데이터셋은 1,394개의 노트로 구성되어 있으며, 9가지 범주에 걸쳐 10,505개의 PHI 스팬을 포함하고 있으며, 인간의 검수를 통해 품질을 보증했습니다.
SHIELD 데이터셋과 증류된 DeBERTa v3 모델을 공개하여, 임상 텍스트 식별자 마스킹 연구 발전에 기여하고자 합니다.