연구진은 기존 비디오 월드 모델의 다중 엔티티 제어 및 일반화 한계를 지적하며, 자연어를 액션 인터페이스로 활용하는 Incantation 모델을 제안했습니다.
Incantation은 프레임별 자연어 조건을 통해 동시 다중 엔티티 제어 및 개념 수준의 교차 엔티티 전송을 지원하며, 기존 액션-인덱스 방식보다 뛰어난 성능을 보였습니다.
연구진은 Incantation 데이터셋의 일부를 공개했으며, Elden Ring 및 KOF 데이터셋을 추가로 공개할 예정입니다.