연구진은 다중 객체 환경에서 시각적 효과로 인한 동작 추정의 어려움을 해결하기 위해 Observed Transition Factorization (OTF) 기법을 제안했어요. OTF는 각 전환을 관찰 가능한 전환 원시(primitives)로 분해하여 동작과 배경 변화를 분리합니다. OTF-LAM은 이 원시를 활용해 동작과 유사한 잠재 변수를 학습하고, OTF-LAM-Dino는 DINOv2 표현 공간에서 미래 상태를 예측합니다.