RootCauseAnalytics가 호주 의료 기록 스타일의 합성 PDF 데이터셋 샘플 50개를 공개했어요.
이 데이터셋은 실제 의료 문서 레이아웃을 모방하며, 다양한 문서 유형(진료 기록, 처방전 등)을 포함하고 있어요.
합성 데이터는 4단계 스캔 품질로 제공되며, bbox 레이블과 ground truth 정보가 포함되어 있어 OCR 모델 학습에 활용할 수 있어요.
데이터셋은 연구 및 실험에 사용 가능하며, 상업적 이용 시에는 CC-BY-NC 4.0 라이선스를 준수해야 해요.
본 데이터셋은 실제 의료 데이터를 대체할 수 없으며, 임상 적용 전 검증이 필요합니다.