연구진이 상호 이해 가능한 언어 쌍과 오타 노이즈에 대한 어려운 사례를 해결하기 위해 CHALIS 데이터셋을 공개했어요. 체코/슬로바크, 스페인어/카탈루냐, 포르투갈어/갈리시아어, 덴마크어/노르웨이어 등 상반된 언어 쌍의 문장과 오타 노이즈 시뮬레이션 데이터를 포함하고 있어요. 기존 언어 식별 시스템들이 특히 저자원 언어와 오타가 심한 입력에서 어려움을 겪는다는 것을 보여줬어요.
CHALIS 데이터셋은 여러 문자 스크립트 간의 텍스트 변환, 악센트 제거, 동음자 공격 시뮬레이션, 인터넷 은어 사용 등을 포함해 오타 노이즈를 테스트하는 두 부분으로 구성돼요. 연구진은 이 데이터셋을 공개하며 관련 연구를 장려하고 싶어해요.
CHALIS 데이터셋은 Hugging Face에서 공개됐으며, 관련 연구 및 활용을 위한 자료로 사용될 수 있어요.