연구진은 로봇 조작에 사용되는 Vision-Language-Action (VLA) 모델의 높은 계산 비용 문제를 해결하기 위해 Differentiable Grid Sampler (GridS)를 제안했습니다.
GridS는 시각적 토큰을 지속적으로 재샘플링하여 중요한 공간 정보를 유지하면서 최대 76%의 FLOPs 감소를 달성했습니다.
새로운 방법은 기존 토큰 가지치기 방법의 성능 저하 문제를 해결하고, LIBERO 벤치마크와 실제 로봇 플랫폼에서 성공률 저하 없이 압축률을 높였습니다.