연구진은 시각-언어-행동 모델의 성능 저하 문제를 해결하기 위해 BehaviorVLA 프레임워크를 제안했어요. 이 프레임워크는 Mamba 기반 인코더와 페이즈 기반 디코더를 활용하여 시간적으로 일관된 행동 표현을 학습합니다. RoboTwin 2.0, LIBERO, CALVIN 데이터셋에서 최고 성능을 달성했으며, 실제 환경으로의 이전 시 OpenVLA-OFT 대비 50%의 데모 데이터만 사용했습니다.