연구진은 시각-언어 모델(VLM)의 성능이 시각적 인식 능력 부족에서 비롯된다는 점을 확인하고, 인식과 추론을 분리하여 후속 훈련하는 방법을 제시했어요.
시각적 인식은 전문 데이터로 집중 훈련해야 하며, 시각적 추론 훈련 전에 먼저 강화해야 하며, 캡션 기반 지도 학습보다 강화 학습을 통해 더 효과적으로 학습돼요.
새로운 훈련 방식은 시각적 수학 및 인식(WeMath, RealWorldQA) 작업에서 기존 모델보다 각각 5.2%, 3.7% 더 높은 성능을 달성하며, 추론 과정도 단축했어요.