대비 임베딩 모델은 스케일 불변 손실로 학습될 때 임베딩 크기를 무시하는 코사인 유사도와 같은 거리 척도와 함께 사용됩니다. 하지만 놀랍게도 경험적 연구에 따르면 이러한 '무시된' 정규화는 개념 특이성, 토큰 빈도, 인간의 불확실성과 같은 의미적 속성과 상관관계가 있습니다. 본 연구에서는 이 현상을 설명하는 공식적인 이론적 프레임워크를 제시합니다.
최적화 역학을 분석하여 임베딩 길이는 학습 과정의 부산물로 이 정보를 자연스럽게 인코딩한다는 분석 공식을 도출했습니다. 또한 특정 모델과 검색 작업에서 '무료' 교정 도구로 작용하는 신호를 발생시키는 것을 보여줍니다.
이 연구는 기존의 휴리스틱 관찰에 대한 근거 있는 설명을 제공합니다.