연구자가 명·청 시대 문집의 서신 제목과 유사한 서문을 구분하는 Lepton BERT 분류 모델을 개발했어요. 이 모델은 5438개의 수작업으로 라벨링된 제목으로 훈련되었어요. Lepton은 Hugging Face에 배포되어 CBDB에서 5만 5천 건 이상의 서신을 식별하는 데 사용되었어요.
Lepton은 중국어 bert-base-chinese 모델을 기반으로 하며, 서신과 서문을 구별하는 데 활용돼요. 이 모델은 명 Letter Platform에 활용되어 서신 정보 구축에 기여하고 있어요.