Pulse · AI 뉴스

실수로부터 배우는 자율주행: 지속적인 정책 학습을 위한 Rollout-Retrieval

nuPlan · 2026-06-30

연구진은 자율주행 정책이 배포 과정에서 발생하는 실수를 통해 지속적으로 개선될 수 있는 Rollout-Retrieval Lifelong Policy Learning (R²LPL) 프레임워크를 제안했어요.

R²LPL은 정책 오류에서 교정 목표를 검색하고, 검색된 지식을 통해 이전의 주행 역량을 유지하며 정책을 개선하는 방식이에요.

실험 결과, R²LPL은 누Plan 벤치마크에서 초기 성능을 크게 향상시키고, 특히 어려운 Test14-hard 분할에서 최고 성능을 달성했어요.

##자율주행##머신러닝##지속적학습##정책학습

매일 핵심 AI 소식을 한국어로, 빠르게