본 연구는 시각-언어 모델이 시각적 특징을 어떻게 변환하는지 분석하기 위해 스펙트럴 접근성을 측정합니다. 차원 축소 외의 효과를 분리하기 위해 Residual Spectral Loss (RSL)을 도입하여 무작위 투영 기준선과 비교합니다. 실험 결과, CLIP과 DINOv2 모델에서 ImageNet 및 MS-COCO 데이터셋에서 스펙트럴 접근성이 깊이에 따라 비단조적 변화를 보입니다.
중간 레이어와 풀링 메커니즘이 현대 시각 인코더의 스펙트럴 변환을 주도한다는 사실을 밝혀냈습니다. CLIP의 투영은 스펙트럴 중립적이며, DINOv2의 [CLS] 풀링은 스펙트럼 전반에 걸쳐 구조적 손실을 유발합니다.