연구진은 Vision-Language Model(VLM)의 추론 비용 문제를 해결하기 위해 SPpruner라는 새로운 방법을 제안했어요. SPpruner는 인간의 시각 인지 방식인 '집중 후 맥락'을 모방하여 시각적 주체를 식별하고 맥락 정보를 통합해요.
SPpruner는 시각적 중요도와 의미적 관련성을 모델링하는 집중 식별 모듈과 주변 영역의 맥락 정보를 통합하는 구조 스캔 모듈로 구성돼요. 이를 통해 VLM의 속도를 2.53배 향상시키고 FLOPs를 67% 줄였어요.
Qwen2.5-VL에서 시각적 토큰의 22.2%만 유지하면서도 정확도는 0.6% 감소하는 데 그쳐 기존 방법보다 우수한 성능을 보여줬어요.