Pulse · AI 뉴스

Unified Video-Action Joint Denoising을 활용한 숙련된 작업 및 데이터 생성

Donk · 2026-06-03

연구진은 로봇 작업과 비디오 기반 모델을 결합하는 새로운 접근 방식인 Donk을 제안했어요. Donk은 언어, 이미지, 초기 핸드 상태를 기반으로 미래 비디오와 핸드 트랙토리를 샘플링하는 모델이에요. 텍스트 조건만으로 작동할 경우, Donk은 비디오 우선순위를 활용하여 데이터 생성 엔진 역할을 수행해요.

Donk은 숙련된 트랙토리 정확도를 향상시키고, 비디오 충실도를 유지하며, 부드러운 텍스트 기반 액션 롤아웃을 생성하는 것으로 나타났어요. 언어, 이미지, 초기 핸드 상태를 입력받아 미래 비디오와 핸드 트랙토리를 샘플링하는 방식으로 작동해요. 텍스트 조건만으로 작동할 경우, 데이터 생성 엔진 역할을 수행합니다.

기존 방식은 관찰 조건 정책 분포로 좁혔지만, Donk은 상호 작용 비디오와 실행 가능한 핸드 트랙토리의 분포를 더 넓게 유지하며, 다양한 조건 하에서 작동합니다.

##로봇##비디오##데이터생성##인공지능##Donk
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기