연구진은 페르시아어 프리트레이닝 언어 모델(PLM)인 IHUBERT를 공개했어요. IHUBERT는 RoBERTa-base 인코더를 기반으로 45GB 규모의 페르시아어 텍스트 데이터셋으로 훈련됐어요.
데이터 품질 향상 및 중복 제거를 위해 정규화, 정확한 중복 제거, 익명화, 벡터 데이터베이스 기반 의미 중복 제거 등 다단계 전처리 파이프라인을 사용했어요.
IHUBERT는 NER, 감성 분석, NLI, 질의 응답 등 7개의 페르시아어 NLU 벤치마크에서 평가 결과, 특히 질의 응답에서 뛰어난 성능을 보였어요.
연구 결과는 페르시아어 언어 모델링 발전에 기여하며, 분류 및 이해 기반 작업 전반에 걸쳐 활용될 수 있을 것으로 기대돼요.