연구진은 교차 도메인 오프라인 강화 학습(CDRL)에서 정책 학습을 개선하기 위해 소스 도메인 데이터를 활용하는 방법인 Target-Aligned Bellman Backup (TABB)을 제안했어요.
기존 방식은 소스 도메인 데이터의 유사성을 측정하여 정책 학습을 유도했지만, 이는 장기적인 수익 일치성을 보장하지 못한다는 한계가 있었어요.
TABB는 소스 도메인 데이터가 타겟 도메인 벨만 타겟 추정에 얼마나 기여하는지를 측정하여 데이터 선택성을 높여 성능을 향상시켰어요.