연구진은 시각 언어 모델(VLM)의 공간 추론 능력 부족 문제를 해결하기 위해 자기 진화 프레임워크 SAGE를 제안했어요. SAGE는 기하학적·언어적 이중성 연산을 활용해 원본 입력과 변환된 입력 간의 논리적 일관성을 강화해요. GRPO 훈련 과정에 이중성 일관성을 보조 보상으로 도입해 모델이 논리적으로 일관된 답변을 생성하도록 유도해요.
SAGE는 모델에 구애받지 않으며, 기존 GRPO 방식보다 데이터 효율적이고, 기존 VLM의 경량화된 후처리 단계로 적용 가능해요. 동적 연산 풀은 불일치를 지속적으로 탐색하며, 어려운 연산을 촉진하고 숙달된 연산을 폐기하여 훈련이 가장 유용한 신호에 집중하도록 해요.
비디오 및 공간 추론 벤치마크 실험에서 강력한 기준 모델보다 성능이 향상되었으며, 새로운 데이터에 대한 일반화 능력도 향상된 것을 확인했어요.