연구진은 강화 학습(RL) 정책을 처음부터 훈련하는 데 드는 비용을 줄이는 새로운 기법을 제안했어요. 기존 정책을 활용해 훈련 효율성을 높이고, 최종적으로 기존 정책보다 뛰어난 성능을 내는 학습 정책을 만들 수 있어요.
새로운 방법은 훈련 과정에서 기존 정책과 학습 정책 간에 역할을 분담하며, 초기에는 기존 정책에 의존하다가 점차 학습 정책에 권한을 넘겨줘요. 훈련이 끝나면 기존 정책 없이도 작동하는 독립적인 신경망 학습 정책을 얻을 수 있어요.
이 기법은 기존 정책이 목표 지점에 도달하고 그 상태를 유지하는 ‘기능적’이라는 조건을 충족하는지 확인하고, 훈련 초반부터 높은 목표 달성률을 유지하도록 설계됐으며, 실험 결과 경쟁 기법과 동등하거나 뛰어넘는 성과를 보였어요.