Pulse · AI 뉴스

위키 데이터 덤프를 활용한 남슬라브어 텍스트 코퍼스 구축 방법론

arXiv cs.CL · 2026-04-28

본 연구는 위키미디어 덤프에서 7개 남슬라브어 언어의 고품질 텍스트 코퍼스를 구축하는 방법론을 제시해요.

원시 위키 마크업을 처리하여 텍스트 기반 기사를 추출하고, 반복적인 패턴을 보이는 저품질 기사를 제거하는 방식으로 품질 관리를 진행했어요.

구축된 데이터셋은 언어 모델 훈련이나 남슬라브어 언어 간 비교 연구에 활용될 수 있으며, 다른 언어에도 적용 가능한 일반적인 접근 방식을 제공해요.

##코퍼스##위키미디어##남슬라브어##언어모델##데이터정제

매일 핵심 AI 소식을 한국어로, 빠르게