연구진은 자연어만으로 4D 점유 공간의 동적인 변화를 생성하는 새로운 프레임워크인 OccDirector를 제안했어요.
OccDirector는 기존 방식의 기하학적 제약이나 단순한 속성 기반 텍스트 입력을 벗어나 복잡한 다중 에이전트 상호 작용을 조율할 수 있어요.
OccDirector는 VLM 기반의 Spatio-Temporal MMDiT를 활용하여 자연어 시나리오를 물리적으로 타당한 복셀 동역학으로 변환하며, OccInteract-85k 데이터셋과 새로운 평가 벤치마크를 함께 공개했어요.