연구진은 사르데냐어를 지원하는 3B 파라미터 모델 LLiMba를 개발했어요. Qwen2.5-3B-Instruct 모델을 기반으로 지속적인 사전 훈련과 지도 학습을 통해 만들어졌어요.
LLiMba는 LSC, Logudorese, Campidanese를 포함한 1150만 토큰의 사르데냐어 텍스트 데이터셋을 사용했어요.
rsLoRA r256 방식이 다른 SFT 설정보다 우수한 성능을 보였으며, 번역 품질과 사실성 유지에 중요한 요소가 adapter 용량임을 확인했어요.