스탠포드 대학이 대규모 언어 모델(LLM) 훈련용으로 사용 가능한 고품질 장문 문서를 재구성한 스탠포드 EDGAR 파일링 데이터셋(SEFD)을 공개했어요.
SEFD는 감사된 재무제표, 위험 공개, 소유권 보고서 등 다양한 SEC 파일링을 MultiMarkdown 형식으로 재구성하여 금융 언어 모델링 및 평가에 활용할 수 있도록 했습니다.
SEFD는 1520억 토큰으로 구성된 초기 공개 버전(SEFD-v1)과 함께 5500억 토큰 규모의 더 큰 아카이브에 대한 분석을 제공하며, EDGAR-Forecast 및 EDGAR-OCR 벤치마크를 선보입니다.