연구진이 다국어 단어 수준 강제 정렬을 위한 새로운 방법을 제시했어요. 이 방법은 Massively Multilingual Speech (MMS) 모델과 자체 지도 음소 경계 감지기(UnSupSeg)에서 얻은 두 가지 표현을 통합하는 정렬 인코더와 학습된 동적 프로그래밍 정렬 디코더로 구성돼요.
TIMIT 및 Buckeye 데이터셋에서 기존 Montreal Forced Aligner (MFA) 및 MMS 기반 정렬보다 성능이 뛰어나다는 것을 확인했어요.
네덜란드어, 독일어, 히브리어 등 새로운 언어에서도 기존 방식과 유사하거나 더 나은 성능을 보여줘서 MMS가 지원하는 1100개 이상의 언어로 확장 가능성을 시사해요.