연구자들이 과학 지식 교류 장벽 해소를 위해 아랍어-러시아어 병렬 코퍼스와 LLM 벤치마크를 공개했어요. 27,000개 문장 쌍으로 구성된 하이브리드 코퍼스는 과학 논문 초록과 일반 텍스트를 포함하고 있어요. Qwen2.5-7B 모델을 LoRA로 파인튜닝한 결과, 기존 대비 BLEU 점수가 4.36점 향상됐어요.
mT5-base, NLLB-200-distilled-1.3B, Qwen2.5-7B 모델을 활용해 파인튜닝했으며, Qwen2.5-7B 모델은 QLoRA(rank 8)로 BLEU 23.15, chrF 43.89, BERTScore 0.906, COMET 0.758을 기록했어요. 몇 가지 예시를 활용한 프롬프트 엔지니어링은 성능 향상에 기여하지 않았어요.
연구팀은 모델, 코퍼스, 평가 코드를 공개하며, 아랍어-러시아어 과학 텍스트 번역 장벽을 낮춰 지속 가능한 파트너십(SDG 17)과 혁신 인프라(SDG 9) 구축에 기여할 것으로 기대돼요.