Pulse · AI 뉴스

과학 지식 교류 장벽 해소: 아랍어-러시아어 병렬 코퍼스 및 LLM 벤치마크

Qwen · 2026-06-30

연구자들이 과학 지식 교류 장벽 해소를 위해 아랍어-러시아어 병렬 코퍼스와 LLM 벤치마크를 공개했어요. 27,000개 문장 쌍으로 구성된 하이브리드 코퍼스는 과학 논문 초록과 일반 텍스트를 포함하고 있어요. Qwen2.5-7B 모델을 LoRA로 파인튜닝한 결과, 기존 대비 BLEU 점수가 4.36점 향상됐어요.

mT5-base, NLLB-200-distilled-1.3B, Qwen2.5-7B 모델을 활용해 파인튜닝했으며, Qwen2.5-7B 모델은 QLoRA(rank 8)로 BLEU 23.15, chrF 43.89, BERTScore 0.906, COMET 0.758을 기록했어요. 몇 가지 예시를 활용한 프롬프트 엔지니어링은 성능 향상에 기여하지 않았어요.

연구팀은 모델, 코퍼스, 평가 코드를 공개하며, 아랍어-러시아어 과학 텍스트 번역 장벽을 낮춰 지속 가능한 파트너십(SDG 17)과 혁신 인프라(SDG 9) 구축에 기여할 것으로 기대돼요.

##LLM##번역##아랍어##러시아어
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기