Pulse · AI 뉴스

1980~2013년 Usenet 아카이브 1030억 토큰 규모 데이터셋 공개

Hugging Face · 2026-05-02

사용자가 1980년부터 2013년까지의 Usenet 아카이브를 구축하여 1030억 토큰 규모의 데이터셋을 만들었어요.

이 데이터셋은 408만 개의 게시물, 18,347개의 뉴스그룹을 포함하며, 96.6%가 영어, 100개 이상의 다른 언어도 담고 있어요.

Usenet의 언어 진화 과정을 보여주는 33년의 기록을 담고 있으며, 관련 데이터 카드와 샘플을 Hugging Face에 공개했어요.

##데이터셋##Usenet##언어모델##HuggingFace##데이터카드
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기