연구진은 제로샷 비전-언어 모델(VLM)의 안전 분류 성능이 프롬프트 변동에 따라 크게 달라질 수 있음을 밝혔습니다. 프롬프트 재구성 시 동일한 샘플에 대해 안전 확률이 달라지는 현상이 나타나며, 이는 프롬프트 간 불일치와 오류 증가와 관련이 있습니다. 프롬프트 평균화 기법은 기존 방식보다 성능을 향상시키고, 추가적인 라벨링 교정은 더 나은 결과를 가져옵니다.