연구진은 미세한 시각적 단서가 포함된 고해상도 이미지에서 시각-언어 모델의 미세한 시각적 추론 성능을 향상시키는 Perceive-to-Reason (P2R) 프레임워크를 제안했어요.
P2R은 질문과 관련된 증거를 먼저 지역화하는 Perceiver와, 주석 처리된 이미지와 잘라낸 영역을 기반으로 질문에 답하는 Reasoner의 2단계 프로세스로 구성돼요.
Qwen3-VL-Instruct-2B/4B/8B 기반으로 구축된 P2R은 V-Star, HR-Bench-4K, HR-Bench-8K 벤치마크에서 기존 모델보다 성능을 크게 향상시켰어요.