연구진은 제로샷 복합 이미지 검색(ZS-CIR)을 위한 새로운 패러다임인 FlowCIR을 제안했어요. FlowCIR은 참조 이미지와 대상 이미지 임베딩 간의 조건부 의미론적 변환으로 ZS-CIR을 정의합니다. 조건부 흐름 매칭을 활용하여, FlowCIR은 참조 이미지에 조건화된 대상과 일치하는 쿼리 임베딩으로 이동하는 가벼운 변환 필드를 학습해요.
기존 텍스트 역반전 방식과 달리, FlowCIR은 VLM 임베딩에서 작동하며 이미지나 텍스트 인코더를 업데이트하지 않고 작은 변환 모듈만 학습하여 계산 효율적인 학습 프로토콜을 제공해요. 기존 방식 대비 약 10배 적은 학습 자원으로도 충분한 성능을 낼 수 있어요.
연구진은 VLM 기반 합성의 주요 실패 모드인 부정 및 제거 문제를 해결하기 위해, 부정 포함 상대적 지시를 부정 의미에서 멀어지게 조종하는 Multi-Negative Steering 전략을 제안했어요. 이를 통해 VLM의 제한적인 부정 처리 능력을 개선하고 부정 관련 쿼리에 대한 강건성을 높였어요.
표준 CIR 벤치마크 실험 결과, FlowCIR은 최신 ZS-CIR 방법과 견줄 만한 강력한 성능을 보여줬어요.