자동 음성 인식(ASR) 평가는 기존 단어 오류율(WER)로는 의미를 제대로 반영하지 못한다는 한계가 있어요. 연구 결과, LLM은 후보 간 최적 선택, 의미 거리 계산, 오류 분류 등 세 가지 접근법에서 WER보다 인간 평가와 높은 일치도를 보였어요. LLM은 해석 가능하고 의미 기반의 ASR 평가를 위한 유망한 방향을 제시하며, 기존 방식보다 인간 평가와 유사한 결과를 보여줬어요.