연구진이 강화 학습 프레임워크 Z-1을 개발했어요. Z-1은 공개된 RoboCasa 데모를 활용해 VLA 모델을 학습시키고, 24개 RoboCasa 작업에서 평균 성공률 80.6%를 달성했어요.
Z-1은 기존 SFT 방식 대비 13.2% 성능을 향상시켰으며, 공개된 최고 성능 모델보다 우수한 결과를 보였어요.
Z-1은 shared-prefix rollout, tree-structured trajectory branching, completion-aware reward calibration, selective joint training 기술을 활용해 효율성과 안정성을 높였어요.