Pulse · AI 뉴스

시뮬레이션에서 현실감 추출: 비전-언어-액션 데이터 증강을 위한 효율적인 비디오 전송

arXiv cs.CV · 2026-05-05

연구진은 시뮬레이션된 VLA 비디오를 현실적인 훈련 비디오로 변환하는 효율적인 비디오 증강 프레임워크를 개발했습니다. 이 프레임워크는 비디오 의미론적 분할과 비디오 캡셔닝을 통해 시뮬레이션에서 구조화된 조건을 추출하고, 환경을 다양화하기 위해 캡션을 재작성하며, 조건부 비디오 전송 모델을 사용하여 현실적인 비디오를 합성합니다.

확장된 증강을 위해 연구진은 비디오 토큰을 인접 타임스텝에서 재사용하여 생성을 가속화하는 확산 기능 재사용 메커니즘과 제한된 컴퓨팅 환경에서 증강을 위한 소수 코어셋 샘플링 전략을 도입했습니다.

Robotwin 2.0, LIBERO, LIBERO-Plus, 실제 로봇 플랫폼에서 광범위한 실험을 통해 일관된 성능 향상을 입증했으며, RDT-1B를 8% 향상시켰고, LIBERO-Plus 벤치마크에서 $π_0$ 를 5.1% 향상시켰습니다.

##VLA##시뮬레이션##비디오증강##로봇##데이터증강
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기