Pulse · AI 뉴스

웹 기반 정보 활용, 시각적 인식 능력 향상 연구

Pixel-Searcher · 2026-05-13

연구진은 시각적 인식이 외부 정보 해결을 필요로 하는 어려운 상황을 연구했습니다. 이를 위해 'Perception Deep Research'라는 새로운 벤치마크인 WebEye를 제시했습니다. WebEye는 120장의 이미지와 473개의 객체 인스턴스, 645개의 질문-답변 쌍, 1927개의 샘플로 구성되어 있습니다.

Pixel-Searcher는 숨겨진 대상의 정체를 파악하고 시각적 인스턴스를 연결하는 에이전트 기반 워크플로우입니다. 이 워크플로우는 검색을 통해 픽셀을 연결하는 방식으로 작동합니다. Pixel-Searcher는 세 가지 작업에서 가장 뛰어난 오픈 소스 성능을 보였습니다.

##시각적인식##에이전트##벤치마크##WebEye##PixelSearcher
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기