DROL은 오프라인 강화 학습 환경에서, 데이터셋이 지원하는 행동을 벗어나지 않으면서 성능을 향상시키는 새로운 접근 방식이에요. DROL은 각 상태에 대해 여러 후보 행동을 샘플링하고, 데이터셋 행동과 가장 가까운 후보를 선택하여 업데이트하는 동적 라우팅 방식을 사용해요. OGBench 및 D4RL 벤치마크에서 DROL은 기존 FQL 모델과 경쟁력 있는 성능을 보이며, 특히 OGBench 작업 그룹에서 성능 향상을 보여줬어요.