시각 강화 학습(VRL) 모델이 새로운 환경에 적응하는 데 어려움이 있어요. 연구진은 작업과 관련 없는 특징에 과적합되는 문제를 해결하기 위해 작업 관련 표현 분리 개념을 도입했어요. 새로운 알고리즘 T2RD는 작업 관련 표현 일관성, 교차 재구성, 교차 동적 예측 세 가지 요소로 구성돼요.
T2RD는 DeepMind Control Suite와 로봇 조작 작업에서 기존 최고 성능(SOTA)을 달성하며 일반화 성능과 샘플 효율성을 높였어요. 기존 방식은 스타일 특징을 분리하지만, 분리된 내용 표현이 작업과 관련 없을 수 있다는 한계가 있었어요.