자율주행 시스템에서 비전-언어 모델의 연산 부담을 줄이기 위해 공간-시간 토큰 가지치기 프레임워크인 ST-Prune을 제안했어요. ST-Prune은 움직임 정보를 활용하여 불필요한 프레임을 제거하는 MTP와 카메라 링 구조를 이용하여 중복되는 시점을 제거하는 RSP 모듈로 구성돼요. ST-Prune은 90% 토큰 감소에도 불구하고 성능 저하 없이 오히려 일부 지표에서는 기존 모델보다 뛰어난 결과를 보여줘요.