이미지 기반 Joint-Embedding Predictive Architecture (I-JEPA)는 마스크된 특징 예측을 통해 시각적 자기 지도 학습에 유망한 접근 방식을 제공합니다.
연구진은 이미지 캡션을 활용하여 예측 불확실성을 줄이는 Text-Conditional JEPA (TC-JEPA)를 제안했습니다.
TC-JEPA는 입력 텍스트 토큰에 대한 희소한 크로스 어텐션을 계산하는 정밀한 텍스트 컨디셔너를 사용하여 예측된 패치 특징을 조절합니다.