연구진은 장기 꼬리 데이터셋에서 꼬리 클래스의 식별력을 유지하면서 프롬프트 튜닝된 비전-언어 모델(VLM)의 일반화 성능을 향상시키는 클러스터 기반 뉴럴 콜랩스 프롬프트 튜닝(CPT)을 제안했습니다.
CPT는 사전 훈련된 VLM에서 의미 할당을 추출하여 프롬프트 튜닝된 특징에 매핑하는 클러스터 불변 공간을 설계하고, 세 가지 손실 함수를 사용하여 클래스 간 분리를 개선합니다.
11개의 다양한 데이터셋에서 실험한 결과, CPT는 최첨단 방법보다 뛰어난 성능을 보였으며, 장기 꼬리 클래스와 새로운 클래스에 대한 일반화 성능도 우수했습니다.