연구진은 강화 학습 사전 훈련을 위해 MTCL(Multi-scale Temporal Contrastive Learning) 방법을 제안했어요. 이 방법은 비디오 내 요소들의 시간적 상관관계를 모델링하여 더 정보적인 표현을 학습해요. 기존 방식의 단점을 보완하여 픽셀 공간의 정지 정보에 치중하지 않고, 작은 요소에도 주목하도록 설계됐어요.
MTCL은 다양한 시간 척도의 상관관계를 분리하여 모델링하며, 다양한 하위 작업에서 정책 학습을 효과적으로 지원해요. 실험 결과, 샘플 효율성과 최종 성능이 향상된 것을 확인했어요.
기존 방식은 단일 단계 전이 예측과 이미지 재구축을 활용했지만, MTCL은 시간적 상관관계 공간을 도입하여 각 요소에 균등하게 주의를 기울여 더 많은 정보를 보존해요.