LaMo는 물리적 일관성이 부족한 비디오 생성 모델의 한계를 극복하기 위해 자기 지도 학습 방식으로 잠재 운동 사전 학습을 제안합니다. 기존 방식의 외부 시뮬레이터 의존성을 줄이고, 비디오 생성 모델 학습에 사용되는 비라벨 데이터에서 운동 단서를 추출합니다. LaMo는 현재 잠재 상태와 프롬프트에 조건부로 프레임 간 잠재 변화에 대한 잠재 운동 사전 학습을 수행하여 물리적 사실성을 개선합니다.
Macro motion drift와 micro motion field라는 두 가지 가벼운 읽기 방식을 통해 학습 및 샘플링 과정에 적용되며, 기존 비디오 확산 모델 구조 변경 없이 적용 가능합니다. VideoPhy 및 VideoPhy2 데이터셋에서 기존 모델과 비교하여 우수한 성능을 보였습니다.
VBench 데이터셋에서는 생성 품질을 유지하면서 운동 관련 지표를 개선했습니다.