Pulse · AI 뉴스

Z-1: 비전-언어-액션 모델의 효율적인 강화 학습 프레임워크

Z-1 · 2026-07-01

연구진이 강화 학습 프레임워크 Z-1을 개발했어요. Z-1은 공개된 RoboCasa 데모를 활용해 VLA 모델을 학습시키고, 24개 RoboCasa 작업에서 평균 성공률 80.6%를 달성했어요.

Z-1은 기존 SFT 방식 대비 13.2% 성능을 향상시켰으며, 공개된 최고 성능 모델보다 우수한 결과를 보였어요.

Z-1은 shared-prefix rollout, tree-structured trajectory branching, completion-aware reward calibration, selective joint training 기술을 활용해 효율성과 안정성을 높였어요.

##강화학습##비전언어액션##RoboCasa##VLA

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기