연구진은 시각 정보가 부족한 경우에도 과도하게 확신에 찬 답변을 내놓는 vision-language model(VLM)의 문제를 해결하기 위해 Semantic Flip 프레임워크를 제안했어요.
Semantic Flip은 query와 비디오 메모리를 독립적으로 변환하여 시각적 기반이 부족한 OOD 샘플을 합성하고, 이를 통해 VLM 위에 경량 거절 모듈을 학습해요.
새로운 거절 벤치마크 SpaceReject에서 Semantic Flip은 F1 점수 0.9559를 달성하며 강력한 프롬프트 기반 모델을 능가하는 성능을 보여줬어요.