튀니지 출신 18세 개발자가 튀니지 다리자어(Arabizi) 번역을 위한 오픈소스 MT 파이프라인과 병렬 코퍼스를 구축했어요.
기존 아랍어 NLP 도구는 다리자어를 MSA로 처리해 오해를 낳았는데, 이번 프로젝트는 이를 해결하기 위해 시작됐어요.
현재 BLEU 점수는 3.89로 낮지만, 데이터 증강을 통해 성능 향상을 목표로 하고 있으며, 데이터 품질과 윤리적 수집을 중시해요.
데이터 기여 및 저자원/방언 아랍어 MT 협업에 관심 있는 사람들을 환영해요.