연구진이 음성 평가를 위한 경량 프레임워크를 제안했어요. 이 프레임워크는 음성 데이터만으로 학습하며, 지도 학습 없이도 작동하거나 소량의 평가 데이터로 보정할 수 있어요. 학습된 언어 모델은 음성 토큰의 놀람을 계산하여 비정상적인 발음을 감지하고, 텍스트 기반 음성 토큰 예측과 정렬을 통해 오류에 민감한 특징을 추출해요.
SpeechOcean762 데이터셋에서 텍스트 기반 가이드가 적용될 경우 상관관계 계수(PCC)가 0.60에서 0.66으로 향상돼 지도 학습 모델에 근접하는 성능을 보여줬어요. L2-ARCTIC 데이터셋에서도 일관된 성능 향상을 확인했어요.