연구진은 기존 월드 액션 모델(WAM)의 훈련 속도 지연 및 정확도 한계를 개선하기 위해 Next Forcing 프레임워크를 제안했어요.
Next Forcing는 멀티 청크 예측(MCP) 훈련 목표를 도입하여 여러 미래 시간 지평(next^1, next^2, next^3 청크)에서 동영상 청크를 동시에 디노이징하여 훈련 속도를 높이고 정확도를 향상시켰어요.
결과적으로 Next Forcing은 RoboTwin 벤치마크에서 새로운 최고 기록을 달성했으며, 물리 법칙 준수를 평가하는 PhyWorld 벤치마크에서도 성능이 향상되었어요.