Pulse · AI 뉴스

World Model Self-Distillation: 장면 이미지 기반 비디오 모델로 일반적인 작업 해결

OpenAI · 2026-06-10

연구진은 텍스트 설명에 의존하지 않고 장면 이미지 기반으로 작업 해결 능력을 가진 비디오 모델을 개발했어요. Self-distillation과 강화 학습을 결합하여 비디오 확산 모델의 행동을 증류하여 이미지와 짧은 작업 프롬프트만으로 조건부 작업을 수행하는 Executor를 만들었어요. VLM 피드백을 활용한 강화 학습으로 Executor 성능을 향상시켰어요.

WorldTasks-벤치마크와 DreamGen 로봇 벤치마크 실험 결과, Executor는 VLM 기반 평가 프로토콜에서 Demonstrator를 능가하고 로봇 작업에 경쟁력 있는 성능을 보였어요. 기존 방식 대비 비디오 작업 감독 없이 실행 지식을 이전하는 데 성공했어요.

##비디오모델##강화학습##VLM##로봇

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기