연구진은 로봇 비디오 월드 모델의 성능 향상을 위해 RoboAlign-R1 프레임워크를 개발했어요. 이 프레임워크는 보상 정렬 후 훈련과 안정적인 장기 예측 추론을 결합합니다.
RoboAlign-R1은 10,000개의 어노테이션된 비디오-지시 쌍으로 구성된 로봇 데이터 벤치마크 RobotWorldBench를 활용하여 훈련되었으며, 6차원 평가를 제공하는 RoboAlign-Judge 모델을 사용했어요.
Sliding Window Re-encoding(SWR) 기술을 통해 장기 예측 품질을 개선했으며, 평가 결과 기존 모델 대비 10.1%의 성능 향상을 보였고, 조작 정확도와 지시 따르기 능력도 각각 7.5%, 4.6% 향상됐어요.