연구진은 자율주행 정책이 배포 과정에서 발생하는 실수를 통해 지속적으로 개선될 수 있는 Rollout-Retrieval Lifelong Policy Learning (R²LPL) 프레임워크를 제안했어요.
R²LPL은 정책 오류에서 교정 목표를 검색하고, 검색된 지식을 통해 이전의 주행 역량을 유지하며 정책을 개선하는 방식이에요.
실험 결과, R²LPL은 누Plan 벤치마크에서 초기 성능을 크게 향상시키고, 특히 어려운 Test14-hard 분할에서 최고 성능을 달성했어요.