연구진은 대규모 다중 모드 모델의 추론 속도를 높이는 추론적 추론의 성능을 향상시키는 DREAM-R 프레임워크를 공개했어요. DREAM-R은 SAPO라는 강화 학습 목표를 사용하여 타겟 경로에 충실하고 간결한 추론 단계를 생성하는 초안 모델을 학습하고, TBVM을 통해 오류 전파를 방지해요. 벤치마크 실험 결과, DREAM-R은 타겟 모델의 정확도를 유지하면서 최대 2배의 속도 향상을 달성하여 효율성을 높였어요.