연구진은 RGB 이미지에서 깊이 정보를 추출하여 로봇 조작 성능을 향상시키는 경량화된 VLA 프레임워크인 Evo-Depth를 제안했습니다. Evo-Depth는 추가 센서 없이 0.9B 파라미터로 구성되어 있으며, 시뮬레이션 환경에서 4가지 벤치마크에서 뛰어난 성능을 보였습니다. 실제 환경 실험에서 Evo-Depth는 가장 높은 성공률을 기록하며 모델 크기, GPU 메모리 사용량, 추론 빈도 측면에서도 가장 효율적인 것으로 나타났습니다.