연구진이 코미-야즈바어와 러시아어 간의 첫 병렬 코퍼스를 공개하고, 저자원 환경에서 LLM 번역을 평가하는 프로토콜을 함께 제시했어요.
코퍼스는 74개의 이야기에서 추출한 457개의 문장 쌍으로 구성되며, 데이터 출처, 문장 정렬, 이야기 식별자를 포함하여 데이터 유출 방지 평가를 지원해요.
연구 결과, LLM은 번역 성능이 모델 종류와 프롬프트 방식에 따라 크게 다르며, few-shot 프롬프트가 zero-shot보다 성능 향상을 보이지만, 추가적인 맥락은 제한적이에요.