VLA(Vision-Language-Action) 모델이 사전 훈련된 VLM(Vision-Language Model) 기반으로 로봇 정책을 적용하는 방식으로 발전하고 있어요. 기존 VLM 모델은 이미지와 텍스트를 이해하는 데 집중했지만, VLA 모델은 실제 행동을 수행하도록 설계됐어요.
VLA 모델은 이미지와 텍스트를 이해하는 것뿐만 아니라, 로봇이 실제 세계에서 상호 작용할 수 있도록 훈련돼요. 이를 통해 로봇은 복잡한 작업을 수행하고, 새로운 환경에 적응할 수 있게 돼요.