연구진은 시각-언어 모델(VLM)의 성능 저하 원인이 추론 능력이 아닌 시각적 지각 능력 부족임을 밝혀냈습니다.
시각적 지각, 시각적 추론, 텍스트 추론으로 나누어 단계별 훈련하는 방식으로 VLM의 지각 능력과 추론 능력을 향상시켰습니다.
새로운 훈련 방식은 시각적 지각 능력을 강화하여 추론 정확도를 1.5% 향상시키고 추론 과정을 20.8% 단축하는 효과를 보였습니다.
기존 난이도 기반 교육 과정과 더불어 능력 기반의 단계별 훈련을 결합하면 더욱 큰 성능 향상을 얻을 수 있습니다.