GeoFlowVLM은 이미지와 텍스트 임베딩의 불확실성을 측정하는 새로운 방법입니다. 이 방법은 2가지 불확실성(aleatoric, epistemic)을 동시에 고려하며, Riemannian flow matching을 통해 제품 hypersphere에서 임베딩의 분포를 학습합니다.
GeoFlowVLM은 조건부 검색 엔트로피를 통해 이미지-텍스트 간의 모호성을 정량화하고, marginal-typicality 점수를 통해 데이터 분포 부족으로 인한 불확실성을 측정합니다.
실험 결과, GeoFlowVLM은 검색 정확도와 분류 정확도를 예측하는 데 효과적이며, 기존 방법보다 더 정확하게 불확실성을 측정하는 것으로 나타났습니다.