연구진이 제로샷 조립 이미지 검색(ZS-CIR)의 한계를 극복하기 위해 경험 기반 자가 진화 및 테스트 시간 스케일링 법칙(TTS)을 도입한 Perception-to-Deliberation Framework (PDF)를 제안했어요.
PDF는 다중 뷰 Worker를 활용해 후보군을 구성하고, Training-free Reasoning Policy Distillation과 Tournament-style TTS를 결합해 정밀한 추론을 수행하며 최종 검색 결과를 도출해요.
CIRR, CIRCO, FashionIQ 세 가지 벤치마크 데이터셋에서 SOTA 성능을 달성했으며, 자가 진화와 TTS가 정밀한 멀티미디어 검색에 효과적임을 입증했어요.