연구진은 메타 강화 학습 프레임워크를 제안하여, 다양한 로봇 에이전트에 지식을 이전하는 데 초점을 맞췄습니다. 이 프레임워크는 단순화된 환경에서 학습한 지식을 다양한 로봇에 적용할 수 있도록 비모수적 사전 지식을 활용하고, 고수준 정책을 통해 작업 수준의 지침을 생성합니다. 실험 결과, 기존 방식 대비 최종 단계 추적 오류를 94.75%에서 99.79%까지 줄이고, 데이터 사용량은 23.8%로 절감했습니다.