연구진은 로봇 제어에 사용되는 비전-언어-액션(VLA) 모델의 구조적 중복성을 분석했어요.
Drop-Then-Recovery(DTR)라는 분석 프로토콜을 통해 사전 학습된 VLA 모델의 블록을 제거하고 성능 회복 정도를 측정했어요.
실험 결과, 언어 백본은 로봇 조작 작업에 크게 불필요한 반면, 비전과 액션 경로는 제거에 더 민감한 것으로 나타났어요.
모델의 절반을 제거해도 성능이 향상되고, 두 개의 언어 블록만으로도 기본 성능을 회복하는 결과가 나왔어요.