사용자가 1980년부터 2013년까지의 Usenet 아카이브를 구축하여 1030억 토큰 규모의 데이터셋을 만들었어요. 이 데이터셋은 408만 개의 게시물, 18,347개의 뉴스그룹을 포함하며, 96.6%가 영어, 100개 이상의 다른 언어도 담고 있어요. Usenet의 언어 진화 과정을 보여주는 33년의 기록을 담고 있으며, 관련 데이터 카드와 샘플을 Hugging Face에 공개했어요.