연구진은 시각적 텍스트 이해(VTC) 파이프라인의 한계를 지적하며, VLM의 내부 처리 과정을 고려하지 않은 기존 방식의 문제점을 분석했어요. VLM의 주의력 지도를 활용해 중요한 시각적 영역을 확대하는 AGAR(Attention-Guided Adaptive Rendering) 방법을 제안했어요. AGAR는 다양한 VTC 벤치마크와 VLM 백본에서 성능 향상을 입증하며, 시각적 텍스트 이해 능력을 개선하는 효과적인 방법으로 평가받고 있어요.