연구진이 고대 그리스어 8개 시대를 아우르는 역동적 트리뱅크 'AthDGC'를 공개했어요. 이 데이터세트는 PROIEL XML 2.0 스키마를 사용하며, 신약성경을 라틴어, 고딕어, 고대 슬라브어, 고아르메니아어로 교차 정렬했어요.
AthDGC는 Stanford Stanza 워크플로우를 사용해 어노테이션하고, LaBSE와 AwesomeAlign 절차를 활용해 문장 및 단어 정렬을 수행하며, 개념 DOI는 10.5281/zenodo.20439182입니다.
v0.4 버전은 큐레이션된 샘플과 오픈소스 툴킷을 제공하며, 전체 어노테이션 코퍼스는 v0.5 감사 후 공개될 예정이며, 정량적 규모와 각 시대별 어노테이션 행 수는 감사 완료 후 공개될 예정이에요.