Pulse · AI 뉴스

Perceive-to-Reason: 시각적 추론에서 인식과 추론 분리

Qwen · 2026-07-01

연구진은 미세한 시각적 단서가 숨겨진 고해상도 이미지에서 세밀한 시각적 추론을 수행하는 데 어려움을 겪는 vision-language 모델을 위해 Perceive-to-Reason (P2R) 프레임워크를 제안했어요.

P2R은 질문과 관련된 증거를 먼저 지역화하는 Perceiver와, 주석 처리된 이미지 및 잘린 영역을 기반으로 질문에 답변하는 Reasoner, 2단계 프로세스로 구성돼요.

Qwen3-VL-Instruct-2B/4B/8B 기반으로 구축된 P2R은 V-Star, HR-Bench-4K, HR-Bench-8K 벤치마크에서 성능을 향상시켰으며, 특히 P2R-4B는 각각 93.2%, 81.9%, 80.5%의 높은 정확도를 달성했어요.

##시각추론##고해상도##Qwen##Perceiver##Reasoner

매일 핵심 AI 소식을 한국어로, 빠르게