연구진은 지구 관측 VLM이 고해상도 이미지에서 미세한 대상 인지 능력 부족 문제를 겪는 '해상도 환상' 현상을 지적하며, 이를 평가하기 위한 벤치마크 UHR-Micro를 공개했습니다.
UHR-Micro는 11,253개의 지시사항과 1,212개의 고해상도 이미지를 포함하며, 다양한 미세 대상 규모, 맥락 요구 사항, 작업 유형, 시각적 조건을 포괄합니다.
연구진은 Micro-evidence Active Perception (MAP) 에이전트를 제안하여, 쿼리를 증거 탐색 단계로 분해하고 후보 영역을 검사하여 정답을 지역적 관찰에 기반하도록 합니다.