OwnerByDane 사용자가 1980년부터 2013년까지의 Usenet 코퍼스(1031억 토큰)를 구축하여 r/ML 커뮤니티에 공개했어요. 이 코퍼스는 LLM 등장 이전의 인간 글쓰기 데이터로, GPT 스타일이나 RLHF 아티팩트가 없는 것이 특징이에요. 컴퓨팅, 과학, 취미, 인문학 등 다양한 분야의 데이터를 포함하며, 샘플 데이터는 무료로 다운로드할 수 있어요.