연구진이 음성 평가 모델 SpeechLLM을 개발했어요. 이 모델은 문장, 단어/음소 수준의 정확도 평가와 함께 자연어 근거를 생성해요. SpeechOcean762 데이터셋에서 기존 모델과 성능이 비슷하거나 능가하는 결과를 보여줬어요. 모델의 근거 신뢰도를 분석한 결과, 문장 수준에서는 신뢰도가 높지만, 단어/음소 수준에서는 정확도가 떨어진다는 점이 확인돼요. 토큰 수준의 평가와 근거 간 연관성이 약하기 때문이에요.