연구진은 CLIP 모델의 패치 레벨 시맨틱 정보를 활용하여 클래스 증분 학습(CIL) 성능을 향상시키는 SPA(Semantic-guided Patch-level Alignment)를 제안했습니다. SPA는 GPT-5를 활용하여 시각적 가이드를 생성하고, 패치 레벨 시각적 특징을 선택하여 인식 성능을 높입니다.
SPA는 클래스별 가우시안 통계에서 샘플링된 의사 특징을 활용하여 기존 클래스 표현을 보정하고, 파국적 망각을 완화합니다. 또한, 다운스트림 증분 작업에 효과적으로 적응하기 위한 태스크별 프로젝터를 도입했습니다.
실험 결과, SPA는 클래스 증분 학습에서 최첨단 성능을 달성했으며, CLIP 기반 CIL 연구에 새로운 가능성을 제시합니다.