DiCLIP은 이미지 레벨 라벨로 약지도 학습 의미론적 분할을 수행할 때, CAM(Class Activation Map)을 활용하는 기존 방법의 한계를 극복하기 위해 제안되었습니다.
VCE(Visual Correlation Enhancement) 모듈은 디퓨전 모델의 공간적 일관성을 활용하여 CLIP의 시각적 특징을 개선하고, ACR(Attention Clustering Refinement) 모듈을 통해 다양한 상관 관계 맵을 추출합니다.
TSA(Text Semantic Augmentation) 모듈은 텍스트 임베딩의 의미론을 증강하여 시각적 범주의 변동성을 포괄하고, PASCAL VOC 및 MS COCO 데이터셋에서 기존 방법보다 우수한 성능을 보였습니다.