연구진은 로봇 조작을 위한 시각-언어-행동 모델의 한계를 극복하기 위해 뇌의 소뇌-시상체 구조를 모방한 CT-VAM을 제안했어요.
CT-VAM은 6800만 파라미터로 구성된 경량 모델로, 시각 정보와 제어 조건을 기반으로 행동을 예측하여 빠른 클라우드-엣지 패러다임을 가능하게 해요.
TARS(Thalamic Action Routing Stream)를 통해 다양한 입력 정보를 효율적으로 처리하며, LIBERO 성공률에서 더 큰 VLA 모델과 경쟁력 있는 성능을 보여줘요.