연구진이 소말리아어 전용 코퍼스 'SomaliWeb v1'을 공개했는데, 총 819,322개의 문서와 3억 3천만 토큰으로 구성돼 있어요. SomaliWeb v1은 HPLT v2, CC100, 소말리아 위키피디아 등 세 가지 소스에서 수집했으며, 6단계 파이프라인을 통해 품질을 필터링했어요. 기존 소말리아어 텍스트 데이터셋의 품질 문제를 지적하며, 중복 제거 및 모지바케 수정 등 개선 노력을 보여주고 있어요.