구성된 이미지 검색(CIR)은 참조 이미지와 텍스트 수정으로 구성된 쿼리가 주어지고, 두 조건을 모두 만족하는 대상 이미지를 검색하는 다중 모드 검색 작업입니다. CIR 벤치마크에서 높은 성능을 달성하려면 다중 모드 구성을 필요로 하는 것이 일반적입니다. 하지만 연구 결과, 이 가정이 항상 맞는 것은 아니라고 합니다.
4개의 널리 사용되는 CIR 벤치마크와 11개의 범용 다중 모드 임베딩 모델을 분석한 결과, 상당수의 쿼리를 단일 모드(32.2%에서 83.6%)로 해결할 수 있다는 사실이 밝혀졌습니다. 이는 모델이 진정한 다중 모드 구성을 활용하기보다는 단일 모드 단축키를 사용하는 경향이 있음을 보여줍니다.
연구진은 쿼리 유형을 감사하고, 인간 검증을 통해 4,741개의 단축키가 없는 쿼리 중 1,689개만 적절하게 구성되어 있음을 확인했습니다. 이를 바탕으로 CIR 벤치마크가 단축키로 해결 가능한 쿼리, 노이즈가 많은 쿼리, 진정으로 구성적인 쿼리를 혼동하여 모델의 다중 모드 구성 능력을 과대평가하고 있다고 지적합니다.