연구진은 MLLM이 복잡한 장면에서 이미지 해석에 어려움을 겪는 문제를 해결하기 위해 Mags-RL 프레임워크를 제안했어요. Mags-RL은 외부 슈퍼 해상도 '돋보기' 에이전트를 활용하여 고해상도 세부 정보를 검사하고, 초기 추론과정을 재검토하여 정확도를 높여요. VSR, TallyQA, GQA 데이터셋 실험 결과, 기존 방법 대비 우수한 성능을 보였으며, 40개 샘플로도 충분한 성능을 달성했어요.