Pulse · AI 뉴스

minWM: 실시간 인터랙티브 비디오 월드 모델 구축을 위한 오픈소스 프레임워크

minWM · 2026-05-29

minWM은 실시간 인터랙티브 비디오 월드 모델 구축을 위한 풀스택 오픈소스 프레임워크입니다. 기존 T2V/TI2V 비디오 모델을 카메라 제어 가능한 월드 모델로 변환하는 엔드투엔드 파이프라인을 제공합니다.

minWM은 양방향 비디오 디퓨전 모델을 카메라 제어와 함께 파인튜닝하고, AR 디퓨전 훈련, ODE 증류, 비대칭 DMD 등을 적용하여 저지연 롤아웃을 위한 몇 단계의 자기회귀 생성기로 증류합니다.

Wan2.1-T2V-1.3B 및 HY1.5-TI2V-8B와 같은 오픈소스 백본을 기반으로 구현되었으며, 교차 어텐션 기반 조건 주입 및 MMDiT 스타일 아키텍처를 모두 지원합니다.

프로젝트 페이지, 체크포인트, 문서, 추론 코드를 공개하며, 카메라 경로 품질, 제어 가능성 훈련 단계, 최소 배치 크기 요구 사항에 대한 분석 결과도 제공합니다.

##비디오월드모델##오픈소스##인터랙티브
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기