Pulse · AI 뉴스

롬바르드 언어 데이터셋 감사: 웹 스크래핑 데이터의 허상

arXiv cs.CL · 2026-06-05

연구진이 이탈리아 롬바르드어 데이터셋을 수동으로 감사했어요. 웹 스크래핑 데이터는 언어 오식, 불필요한 텍스트, 노이즈로 가득한 경우가 많아요. 데이터셋은 서부 롬바르드어에 편향되어 있으며, 동부 롬바르드어는 소외되어 있어요.

롬바르드어 NLP 도구 부족의 원인은 고품질 데이터셋 부족 때문이에요. 연구 결과, 웹 스크래핑 데이터의 양이 많다고 느끼지만 실제로는 품질이 낮고 편향되어 있어요.

다양성을 고려한 커뮤니티 주도 데이터 관리가 필요하며, 단순히 데이터 양만 늘리는 방식은 한계가 있어요.

##롬바르드어##NLP##데이터셋##언어자원

매일 핵심 AI 소식을 한국어로, 빠르게