연구진은 미세한 시각적 단서가 숨겨진 고해상도 이미지에서 세밀한 시각적 추론을 수행하는 데 어려움을 겪는 vision-language 모델을 위해 Perceive-to-Reason (P2R) 프레임워크를 제안했어요.
P2R은 질문과 관련된 증거를 먼저 지역화하는 Perceiver와, 주석 처리된 이미지 및 잘린 영역을 기반으로 질문에 답변하는 Reasoner, 2단계 프로세스로 구성돼요.
Qwen3-VL-Instruct-2B/4B/8B 기반으로 구축된 P2R은 V-Star, HR-Bench-4K, HR-Bench-8K 벤치마크에서 성능을 향상시켰으며, 특히 P2R-4B는 각각 93.2%, 81.9%, 80.5%의 높은 정확도를 달성했어요.