Pulse · AI 뉴스

스탠포드 EDGAR 파일링 데이터셋 공개: 미국 기업 및 재무 공개 데이터를 레이아웃 충실형 토큰 효율적인 사전 훈련 데이터로 재구성

Stanford · 2026-06-17

스탠포드 대학이 대규모 언어 모델(LLM) 훈련용으로 사용 가능한 고품질 장문 문서를 재구성한 스탠포드 EDGAR 파일링 데이터셋(SEFD)을 공개했어요.

SEFD는 감사된 재무제표, 위험 공개, 소유권 보고서 등 다양한 SEC 파일링을 MultiMarkdown 형식으로 재구성하여 금융 언어 모델링 및 평가에 활용할 수 있도록 했습니다.

SEFD는 1520억 토큰으로 구성된 초기 공개 버전(SEFD-v1)과 함께 5500억 토큰 규모의 더 큰 아카이브에 대한 분석을 제공하며, EDGAR-Forecast 및 EDGAR-OCR 벤치마크를 선보입니다.

##데이터셋##금융##LLM##SEC##EDGAR

매일 핵심 AI 소식을 한국어로, 빠르게