연구팀이 영어-마라티 병렬 데이터셋 'BhashaSetu'를 공개하며, 278만 개의 문장 쌍으로 뉴스, 정치, 의료, 문학 등 다양한 분야를 포함합니다.
BhashaSetu는 형태소 분석을 지원하기 위해 어간 추출 및 표제어화된 데이터를 제공하며, LoRA를 활용한 NLLB-200-distilled-600M 모델의 파라미터 효율적인 미세 조정에 사용되었습니다.
데이터 중복 제거가 BLEU 점수 1.17점, chrF++ 점수 2.21점 향상에 가장 큰 영향을 미쳐, 데이터 품질 관리가 저자원 언어 번역의 핵심임을 확인했습니다.