본 논문은 가변 길이 오디오 또는 텍스트의 음성 내용을 고정된 차원의 임베딩 공간에서 표현하는 음향 이웃 임베딩을 해석하기 위한 이론적 프레임워크를 제공합니다. 단어 간 음성 유사성에 대한 일반적인 정량적 정의를 기반으로 임베딩 간 거리에 대한 확률적 해석을 제안하여 임베딩을 원칙적으로 이해하고 적용할 수 있는 프레임워크를 제시합니다. 균일한 클러스터별 등방성을 나타내는 근사치를 이론적, 경험적으로 뒷받침하는 증거를 보여주어…