연구진은 비디오 생성 모델의 물리적 타당성 문제를 해결하기 위해 PILA(Physics-Informed Latent Alignment) 프레임워크를 제안했어요.
PILA는 미리 학습된 비디오 모델의 잠재적 흐름 매칭 역학에 물리 기반의 가이드 정보를 주입하며, 혼합 전문가 설계를 통해 다양한 실제 역학을 처리해요.
Wan 2.1-1.3B 모델에 대한 단계적 어댑터 학습 후 Wan 2.2-14B 모델에 직접 이전하여 VBench-2.0, VideoPhy-2, PhyGenBench에서 최고 성능을 달성했어요.