Pulse · AI 뉴스

BullingerDB: 역사 문서 필기체 인식 및 작성자 식별을 위한 새로운 데이터셋

BullingerDB · 2026-05-29

연구진이 16세기 종교개혁가 하인리히 불링거의 서신을 기반으로 한 대규모 역사 문서 분석 벤치마크 데이터셋 BullingerDB를 공개했어요. 데이터셋은 총 20,898페이지, 499,222줄의 필기체 텍스트를 포함하며, 796명의 작성자가 60년에 걸쳐 작성했어요. TrOCR 모델은 문자 인식 정확도(CER) 9.1%를 기록했어요.

BullingerDB는 작성자 식별 성능 평가를 위해 시간 정보를 고려한 nDCG 지표를 도입했는데, 장기간의 스타일 변화로 인해 성능 향상에 어려움이 있어요. 78.3%의 mAP 점수를 기록했어요.

연구진은 BullingerDB를 통해 다국어 역사 문서 필기체 인식 및 시간 의존적 작성자 분석을 위한 새로운 벤치마크를 구축하고자 합니다.

##필기체인식##역사문서##데이터셋##TrOCR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기