본 연구는 비전-언어 모델(VLM)의 의미론적 변화에 따른 강건성을 인증하는 새로운 프레임워크를 제안합니다. 텍스트 프롬프트를 활용하여 의미론적 변환을 생성하고, 모델의 예측 클래스가 변하지 않는 범위(extent)를 정량적으로 인증합니다. 이 프레임워크는 추가 데이터 없이 다양한 의미론적 변화에 대한 강건성을 인증하는 최초의 시도입니다.
기존 프레임워크는 주로 기하학적 또는 픽셀 수준의 변환을 연구했지만, 본 연구는 VLM의 개방형 어휘 능력을 활용하여 텍스트 프롬프트를 의미론적 프록시로 사용합니다. 이를 통해 모델의 의사 결정 경계를 명확하게 파악하고, 예측 클래스가 변하지 않는 extent 범위를 인증합니다.
합성 및 실제 데이터 실험 결과, 본 프레임워크는 다양한 의미론적 변화 시나리오에서 VLM의 강건성을 인증하는 데 효과적임을 입증했습니다.