연구진은 시각적 인식이 외부 정보 해결을 필요로 하는 어려운 상황을 연구했습니다. 이를 위해 'Perception Deep Research'라는 새로운 벤치마크인 WebEye를 제시했습니다. WebEye는 120장의 이미지와 473개의 객체 인스턴스, 645개의 질문-답변 쌍, 1927개의 샘플로 구성되어 있습니다.
Pixel-Searcher는 숨겨진 대상의 정체를 파악하고 시각적 인스턴스를 연결하는 에이전트 기반 워크플로우입니다. 이 워크플로우는 검색을 통해 픽셀을 연결하는 방식으로 작동합니다. Pixel-Searcher는 세 가지 작업에서 가장 뛰어난 오픈 소스 성능을 보였습니다.