Pulse · AI 뉴스

Your CLIP 임베딩의 164차원 노이즈: 대비 학습 시각-언어 변환기의 임베딩 공분산 고유값 스펙트럼 탐구

CLIP · 2026-05-14

연구진은 대비 학습을 거친 시각-언어 모델(VLM)의 잠재 공간에 존재하는 다중 모달 노이즈 문제를 분석했어요. 공분산 행렬 분해를 통해 의미 있는 신호와 공유된 노이즈 부분 공간을 분리하는 방법을 제시했어요. 노이즈 차원을 제거하는 것이 다운스트림 작업 성능에 해롭지 않거나 오히려 개선될 수 있다는 사실을 발견했어요.

VLM의 잠재 공간이 아키텍처 수준의 노이즈에 의해 지배될 수 있다는 새로운 통찰력을 제공하며, 이는 기존의 의미론적 요소와는 다른 현상이라고 설명해요. 연구는 현대 VLM의 표현 구조에 대한 메커니즘적 이해를 높이는 데 기여할 수 있어요.

이 연구는 VLM의 잠재 공간 구조를 분석하고 노이즈 차원을 제거하는 방법을 제시하여, 시각-언어 모델의 성능 향상 및 해석 가능성을 높이는 데 도움을 줄 수 있어요.

##VLM##CLIP##임베딩##노이즈##공분산
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기