연구진이 복잡한 시나리오에서 사실 기반 추론 능력이 부족한 MLLM의 한계를 극복하기 위해 Visual-Seeker를 제안했어요. Visual-Seeker는 시각 정보를 정적으로 처리하는 대신, 세밀한 시각적 디테일에 적극적으로 주의를 기울여 검색 과정에서 시각적 증거를 수집해요.
능동적 시각 추론 데이터 파이프라인을 설계하고 5천 개의 고품질 멀티모달 트랙션을 합성하여 모델 훈련에 활용했어요. 이를 통해 실제 웹 환경에서 강력한 시각 중심 추론 및 검색 능력을 검증했어요.
Visual-Seeker는 5가지 어려운 멀티모달 검색 벤치마크에서 최고 성능을 달성하며, 여러 독점 모델을 능가하는 결과를 보여줬어요. 코드와 데이터는 GitHub에서 확인할 수 있어요.