Pulse · AI 뉴스

PixelEyes: 시각적 증거 탐색을 위한 인식과 추론 분리

PixelEyes · 2026-06-30

PixelEyes는 MLLM의 시각적 추론 실패 원인을 인식과 추론의 얽힘으로 분석했어요. 이를 해결하기 위해 추론과 인식을 분리하는 PixelEyes 에이전트를 제안했어요. PixelEyes는 Mask-guided 시각 검색과 Semantic-region BFS를 도입하여 불필요한 반복을 줄였어요.

PixelEyes-6K 데이터셋을 구축하여 모델에 mask-guided 검색과 BFS 로직을 내재화하고, 시각적 검색 벤치마크 Pinpoint-Bench를 공개했어요. Pinpoint-Bench는 위치 단서 없이 인스턴스 레벨 마스크와 바운딩 박스를 제공하여 실패 원인을 세밀하게 분석할 수 있어요.

최신 MLLM과 시각적 추론 에이전트는 Pinpoint-Bench에서 여전히 개선의 여지가 큽니다. 코드와 모델은 오픈 소스로 공개됐어요.

##시각추론##PixelEyes##오픈소스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기