네덜란드 의료 분야의 데이터 부족으로 인해 자연어 처리(NLP) 개발에 어려움이 있었어요. 영어 데이터 번역, 일반 데이터에서 의료 텍스트 식별, 공개 네덜란드 의료 자원 추출 등을 통해 약 350억 토큰 규모의 데이터 코퍼스를 구축했어요. 구축된 데이터 코퍼스는 약 1억 개의 문서로 구성되어 있으며, Hugging Face에서 자유롭게 사용할 수 있어요.