Pulse · AI 뉴스

Differentiable Grid Sample Pruning을 활용한 일반화된 Vision-Language-Action 모델

GridS · 2026-05-12

연구진은 로봇 조작에 사용되는 Vision-Language-Action (VLA) 모델의 높은 계산 비용 문제를 해결하기 위해 Differentiable Grid Sampler (GridS)를 제안했습니다.

GridS는 시각적 토큰을 지속적으로 재샘플링하여 중요한 공간 정보를 유지하면서 최대 76%의 FLOPs 감소를 달성했습니다.

새로운 방법은 기존 토큰 가지치기 방법의 성능 저하 문제를 해결하고, LIBERO 벤치마크와 실제 로봇 플랫폼에서 성공률 저하 없이 압축률을 높였습니다.

##VLA##로봇##모델압축##GridS##컴퓨터비전

매일 핵심 AI 소식을 한국어로, 빠르게