비지도 용어 발견은 레이블이 없는 음성을 단어 또는 음절과 유사한 단위로 분할하고 이러한 단위를 후보 유형의 어휘로 클러스터링하는 과정이에요. 실제 어휘는 Zipf 분포를 따르지만, K-means와 같은 주 중심 클러스터링 방식은 구형 클러스터에 대한 유도 편향으로 인해 더 균일한 분포를 만들어내요.
본 연구에서는 세그먼트 임베딩을 쌍별 유사성으로 연결하고 Leiden 알고리즘을 사용하여 파티셔닝하는 하향식 대안인 그래프 기반 클러스터링을 재검토했어요. 세 가지 언어에서 단어 및 음절 수준의 어휘 발견 모두에서 그래프 클러스터링은 주 중심 접근 방식(K-means, GMM, BIRCH)보다 훨씬 뛰어난 성능을 보이며, 더 Zipf-다운 분포를 만들어냈어요.
본 연구는 용어 발견을 위한 주 중심 클러스터링의 지배력을 의문을 제기하고 그래프 클러스터링을 매력적인 대안으로 제시해요.