연구진은 기존 월드 액션 모델(WAM)의 느린 학습 속도와 낮은 정확도 문제를 해결하기 위해 멀티 청크 예측(MCP) 프레임워크인 Next Forcing을 제안했어요.
Next Forcing은 대규모 언어 모델의 멀티 토큰 예측 방식에서 영감을 받아, 미래 동역학을 예측하는 보조 MCP 모듈을 도입하여 여러 미래 시간 지평(next^1, next^2, next^3 청크)에서 동영상 청크를 동시에 디노이징해요.
Next Forcing은 RoboTwin 벤치마크에서 최고 성능을 달성하며, 50fps 환경에서 93.1%의 상대적 성능 향상과 2.3배 빠른 수렴 속도를 보여줬어요.