Pulse · AI 뉴스

IHUBERT: 의미 기반 중복 제거 및 도메인 균형 프리트레이닝을 통한 페르시아어 자원 개선

IHUBERT · 2026-06-18

연구진은 페르시아어 프리트레이닝 언어 모델(PLM)인 IHUBERT를 공개했어요. IHUBERT는 RoBERTa-base 인코더를 기반으로 45GB 규모의 페르시아어 텍스트 데이터셋으로 훈련됐어요.

데이터 품질 향상 및 중복 제거를 위해 정규화, 정확한 중복 제거, 익명화, 벡터 데이터베이스 기반 의미 중복 제거 등 다단계 전처리 파이프라인을 사용했어요.

IHUBERT는 NER, 감성 분석, NLI, 질의 응답 등 7개의 페르시아어 NLU 벤치마크에서 평가 결과, 특히 질의 응답에서 뛰어난 성능을 보였어요.

연구 결과는 페르시아어 언어 모델링 발전에 기여하며, 분류 및 이해 기반 작업 전반에 걸쳐 활용될 수 있을 것으로 기대돼요.

##페르시아어##언어모델##프리트레이닝##IHUBERT##NLU

매일 핵심 AI 소식을 한국어로, 빠르게