연구진은 복잡한 상호작용과 다양한 액션 시퀀스 하에서의 미래 상태 예측을 가능하게 하는 액션 기반 세계 모델의 한계를 지적했어요.
DexAC-WM은 액션 조건부 학습을 전역 압축 대신 구조화된 프로세스로 다루는 새로운 접근 방식이며, 액션 토큰화를 통해 차원 수준의 의미를 보존하고 시각적 역학과의 액션 신호를 정렬해요.
EgoDex와 EgoVerse 실험 결과, 의미론적 브랜치와 DexAC 결합은 FID, FVD, PCK를 크게 향상시켜 시각적-시간적 현실감과 액션 추종 일관성을 개선했어요.