연구진은 히브리어 음소기-음절 변환 모델 'ReNikud'을 개발했어요. 기존 방식의 한계(희소한 음성 데이터, 발음 규칙 반영 실패)를 극복하기 위해선 오디오 기반 약한 지도 학습을 활용했어요.
ReNikud은 수천 시간의 히브리어 오디오를 활용해 음성 데이터를 자동으로 생성하고, 문자 수준의 정렬을 유도하는 구조를 적용했어요.
기존 벤치마크와 새로운 MILIM 벤치마크에서 ReNikud은 기존 최고 성능 모델을 능가하는 결과를 보여줬으며, 관련 코드와 모델을 공개할 예정이에요.