연구진이 식료품 제품 검색(MPR)을 위해 190개의 오픈소스 비전-언어 모델(VLM)을 평가하여 데이터 품질이 모델 크기보다 중요함을 확인했어요.
MobileCLIP-B 모델(150M 파라미터)이 노이즈 데이터로 학습된 351M 모델보다 뛰어난 성능을 보여, 효율성 지표인 ‘의미적 파워 밀도’(φ)의 중요성을 강조했어요.
최고 성능 모델은 Recall@5에서 94.5%의 정확도를 기록했지만, Recall@1에서 17.5%의 성능 저하를 보여 시각적으로 유사한 제품 검색의 어려움을 드러냈어요.