연구팀은 DVD 로고가 튕기는 영상을 활용해 JEPA(Joint-Embedding Predictive Architecture) 세계 모델을 구현했어요.
DVD-JEPA는 32차원 표현 공간에서 다음 관측값을 예측하는 컨텍스트 인코더, EMA 타겟 인코더, 잠재 예측기로 구성돼요.
학습된 세계 모델은 로고의 정확한 위치를 0.73px 이내로 복원하고, 20단계까지 미래 프레임 비디오를 렌더링할 수 있어요.
전체 시스템은 약 40줄의 JavaScript로 구현되며, I-JEPA, V-JEPA, V-JEPA 2의 기반 아키텍처를 보여줘요.