Pulse · AI 뉴스

980만 문서 규모의 다국어(힌디어, 벵골어, 타밀어 등) 코퍼스 공개 (CC0, Hugging Face)

Hugging Face · 2026-05-19

연구 프로젝트의 일환으로 980만 개의 웹 문서를 11개 언어로 구축하여 Hugging Face에 공개했어요. 힌디어, 벵골어, 타밀어 등 다양한 언어를 지원하며, 총 84억 토큰 규모예요. CC0 라이선스로 자유롭게 사용 가능하며, 연구 및 다양한 활용에 기여할 것으로 기대돼요.

코퍼스는 힌디어, 벵골어, 타밀어, 텔루구어, 마라티어, 구자라트어, 카나다어, 말라얄람어, 펀자브어, 우르두어, 영어로 구성돼 있어요. Hugging Face 데이터셋 페이지에서 다운로드할 수 있어요.

연구자는 이 코퍼스를 통해 다국어 자연어 처리 연구를 진행했으며, 결과물을 커뮤니티와 공유하여 더 많은 연구에 활용되기를 바라고 있어요.

##데이터셋##다국어##HuggingFace##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기