연구진은 단어의 공기동 패턴을 기반으로 언어 모델 내 계층적 개념이 어떻게 기하학적으로 표현되는지 분석했어요. WordNet 상위어 그래프에서 가까운 단어들이 더 자주 함께 나타난다는 경험적 사실을 바탕으로, word2vec 임베딩의 Gram 행렬 스펙트럼을 이론적으로 규명했어요.
연구 결과, 임베딩의 주요 고유 벡터는 광범위한 분류학적 분기를 먼저 분리하고, 점진적으로 더 미세한 하위 분기를 분리하여 거친 것부터 세밀한 것까지의 스펙트럼 구조를 형성하는 계층적 분할 기하학을 만들어냅니다.
word2vec 임베딩과 Gemma 2B 임베딩에서 이러한 패턴이 확인되었으며, 이는 LLM에서 계층적 개념 기하학이 특정 기능적 메커니즘을 반영하는 것이 아니라 단어 통계의 스펙트럼 구조에서 비롯된다는 것을 시사합니다.