Pulse · AI 뉴스

BhashaSetu: 데이터 중심의 저자원 기계 번역 접근 방식

BhashaSetu · 2026-05-26

연구팀이 영어-마라티 병렬 데이터셋 'BhashaSetu'를 공개하며, 278만 개의 문장 쌍으로 뉴스, 정치, 의료, 문학 등 다양한 분야를 포함합니다.

BhashaSetu는 형태소 분석을 지원하기 위해 어간 추출 및 표제어화된 데이터를 제공하며, LoRA를 활용한 NLLB-200-distilled-600M 모델의 파라미터 효율적인 미세 조정에 사용되었습니다.

데이터 중복 제거가 BLEU 점수 1.17점, chrF++ 점수 2.21점 향상에 가장 큰 영향을 미쳐, 데이터 품질 관리가 저자원 언어 번역의 핵심임을 확인했습니다.

##기계번역##저자원##마라티##데이터셋##NMT

매일 핵심 AI 소식을 한국어로, 빠르게