연구진은 시각적 추론 능력을 향상시키는 자기 진화형 다중 모드 모델(LMM)의 한계, 즉 시각 정보 부족 문제를 지적했어요.
VISE(Visual Invariance Self-Evolution)라는 새로운 프레임워크를 제안하여 모델이 시각적 조건을 직접 규제하도록 했어요.
기하학적 불변성 보상과 의미론적 불변성 보상을 통해 시각 정보에 대한 집중도를 높였으며, 18개 벤치마크에서 성능 향상을 확인했어요.
Qwen3-VL-2B 모델을 기반으로 COCO에서 CIDEr 점수가 16.85점, TextCaps에서 19.66점 향상되었고, 객체 환각 현상도 감소했어요.