연구진이 16세기 종교개혁가 하인리히 불링거의 서신을 기반으로 한 대규모 역사 문서 분석 벤치마크 데이터셋 BullingerDB를 공개했어요. 데이터셋은 총 20,898페이지, 499,222줄의 필기체 텍스트를 포함하며, 796명의 작성자가 60년에 걸쳐 작성했어요. TrOCR 모델은 문자 인식 정확도(CER) 9.1%를 기록했어요.
BullingerDB는 작성자 식별 성능 평가를 위해 시간 정보를 고려한 nDCG 지표를 도입했는데, 장기간의 스타일 변화로 인해 성능 향상에 어려움이 있어요. 78.3%의 mAP 점수를 기록했어요.
연구진은 BullingerDB를 통해 다국어 역사 문서 필기체 인식 및 시간 의존적 작성자 분석을 위한 새로운 벤치마크를 구축하고자 합니다.