연구진은 다중 모드 대규모 언어 모델(MLLM)의 자기 개선 학습 시 데이터 불균형과 언어 편향 문제를 지적했어요. VISTA 프레임워크는 비전 정보를 고려한 데이터 재샘플링과 어텐션 점수를 활용하여 이러한 문제를 해결합니다. VISTA는 Qwen2-5-VL-3B-Instruct 모델의 성능을 최대 13.66% 향상시키는 등 다양한 MLLM과 작업에서 효과를 입증했습니다.