연구진은 Q'eqchi' 마얀어 기계 번역 모델 개발을 위해 웹 스크래핑 없이 데이터 합성 방법을 사용했어요. LoRA 어댑터를 활용한 PEFT 방식으로 mT5-base 모델을 미세 조정했어요.
합성 데이터로 학습한 모델은 복잡한 교착어 형태와 VOS 어순을 효과적으로 습득했지만, 자연어 어휘와의 간극이 존재했어요.
다중 작업 학습은 오히려 성능 저하를 일으켰으며, 자연어의 유연성을 확보하기 위해 커리큘럼 학습을 통한 자연 데이터 보완이 필요하다는 결론을 내렸어요.