Pulse · AI 뉴스

대규모 언어 모델 기반 다국어 관계 추출: 루마니아어 제로샷, 소폭 학습, 파인튜닝 평가

Gemma · 2026-06-30

연구진은 루마니아어 저자원 환경에서 관계 추출(RE)의 가능성을 조사하기 위해 자동 데이터셋 번역과 대규모 언어 모델(LLM) 추론을 결합했어요. Gemma 4 31B 모델을 제로샷, 소폭 학습, QLoRA 파인튜닝 방식으로 평가한 결과, 영어에 비해 3~5%p 성능 저하가 관찰됐어요. QLoRA 파인튜닝은 두 언어 모두에서 매크로 F1 점수를 22% 이상 향상시키고, 언어 간 격차를 3.3%p에서 1.4%p로 줄였어요.

125M~560M 파라미터의 인코더 기반 모델들은 31B 모델 Gemma에 1~4%p 이내로 근접한 성능을 보였으며, 특히 125M 파라미터의 단일 언어 루마니아어 BERT 모델은 278M 파라미터의 다국어 XLM-R 모델과 유사한 성능을 나타냈어요. 따라서 컴퓨팅 자원이 중요한 배포 시나리오에서는 31B 모델을 단일 작업 RE에 사용하는 것은 비효율적일 수 있어요.

연구진은 번역된 데이터셋, 평가 코드, 학습 모델을 공개했으며, 이는 루마니아어 저자원 환경에서의 LLM 활용 가능성을 보여주는 중요한 사례예요.

##관계추출##루마니아어##LLM

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기