Pulse · AI 뉴스

ACE-Ego-0: 로봇과 인간 데이터를 통합한 VLA 사전 훈련 프레임워크

ACE-Ego-0 · 2026-06-15

ACE-Ego-0은 로봇과 인간 데이터를 통합하여 VLA(Vision-Language-Action) 모델을 사전 훈련하는 새로운 프레임워크입니다. 인간의 에고센트릭 비디오에서 대규모의 가상 액션 트랙터리를 추출하여 로봇 데이터와 함께 활용합니다.

ACE-Ego-0은 카메라 공간 액션, 형태 조건, 시간 정렬 액션 청킹을 기반으로 통일된 액션 표현을 사용하여 인간과 로봇 데이터를 비교 가능하게 만듭니다.

신뢰도 기반 훈련 목표와 인간 보조 손실을 통해 노이즈가 많은 인간의 가상 액션 감독을 안정적으로 활용하며, RoboCasa GR1 TableTop과 RoboTwin 2.0에서 최고 성능을 달성했습니다.

4.53K 시간의 로봇 및 시뮬레이션 데이터와 1.48K 시간의 가상 액션 레이블이 있는 에고센트릭 인간 데이터로 ACE-Ego-0을 구현했습니다.

##VLA##로봇##인공지능##사전훈련

매일 핵심 AI 소식을 한국어로, 빠르게