연구에 따르면 평균 코사인 유사도는 현대 트랜스포머 표현의 등방성에 의해 시퀀스 길이에 따라 단조롭게 증가하며, 콘텐츠와 무관하게 길이가 영향을 미칩니다.
HumanEvalPack 데이터셋에서 코딩 LLM 간의 '파이썬 근접성'은 길이 비율만으로도 52~75%의 R² 값을 보이며, AST 깊이와 공유 토큰 비율은 추가적인 설명력을 거의 제공하지 못합니다.
Centered Kernel Alignment (CKA)를 사용하면 설명 분산이 83% 감소하고 길이 계수의 부호가 반전되어, 교차 표현 비교에 CKA와 같은 길이 불변 메트릭을 사용하는 것이 적절함을 시사합니다.