연구진은 고해상도 이미지에서 세부 정보를 놓치지 않도록 MLLM의 시각적 인지 능력을 향상시키는 Hierarchical Entity Exploration (HEE) 프레임워크를 제안했어요.
HEE는 학습 없이 모델에 종속되지 않고, 질문에 답하기 위해 필요한 영역을 동적으로 탐색하며, 객체 감지 및 계층적 구조를 활용해 복잡한 HR 장면에서도 뛰어난 성능을 보여줘요.
HEE는 Visual Probe와 HR-Bench 벤치마크에서 ZoomEye, RAP 등 기존 방법보다 정확도와 효율성 모두에서 우수한 성능을 보였고, MME-RealWorld 벤치마크에서도 일반화 능력을 입증했어요.