MotionVLA는 이미지와 텍스트를 기반으로 인간형 동작을 생성하는 새로운 모델입니다. 기존 방식의 단점을 극복하기 위해 동작을 Base와 Physical 스트림으로 분리하여 독립적으로 압축하는 DSFT 방식을 도입했습니다. HumanML3D와 MBench 데이터셋에서 실험 결과, 기존 모델 대비 다양성 격차를 50% 이상 줄이고 동작 일관성을 향상시켰습니다.