연구진은 CLIP의 공간적 편향 문제를 해결하기 위해 새로운 프레임워크인 VIP(Visual-guided Prompt Evolution)를 개발했습니다. VIP는 시각 기반 프롬프트 진화를 통해 텍스트 쿼리의 의미적 표현을 수정하여 밀집형 객체 인식 성능을 향상시킵니다. 실험 결과, VIP는 기존 최고 성능 모델보다 평균 mIoU에서 1.4%~8.4% 향상된 성능을 보였으며 다양한 분야에 잘 적용됩니다.