GRIP-VLM은 시각-언어 모델에서 불필요한 시각 토큰을 제거하여 연산 부담을 줄이는 프레임워크입니다. 강화 학습을 활용하여 토큰 가지치기를 마르코프 결정 프로세스로 정의하고, 그룹 상대 정책 최적화(GRPO)를 통해 최적의 토큰 선택을 탐색합니다. 다양한 벤치마크 실험 결과, GRIP-VLM은 기존 방법보다 뛰어난 성능을 보이며 최대 15%의 추론 속도 향상을 달성했습니다.