Pulse · AI 뉴스

1980~2013년 Usenet 코퍼스 공개: AI 오염 없는 인간 글쓰기 데이터

Gemma · 2026-05-28

OwnerByDane 사용자가 1980년부터 2013년까지의 Usenet 코퍼스(1031억 토큰)를 구축하여 r/ML 커뮤니티에 공개했어요.

이 코퍼스는 LLM 등장 이전의 인간 글쓰기 데이터로, GPT 스타일이나 RLHF 아티팩트가 없는 것이 특징이에요.

컴퓨팅, 과학, 취미, 인문학 등 다양한 분야의 데이터를 포함하며, 샘플 데이터는 무료로 다운로드할 수 있어요.

##데이터##코퍼스##Usenet##AI##Gemma
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기