음성 생성 평가에서 감정 표현의 객관적인 지표로 감정 유사성 측정 방법이 널리 사용돼요. 연구 결과, 감정 임베딩 공간은 언어적, 화자적 요인에 취약해 감정 특징을 제대로 반영하지 못하는 것으로 나타났어요. 이러한 한계는 기존 지표가 인간의 인지 부합성을 벗어나고, 단순히 음향적 모방을 장려하는 문제를 야기해요.