연구진은 목표 조건 강화 학습(GCRL)에서 상태-목표 쌍의 공유 구조를 활용하는 방법론을 제시했어요. 계층적 정책을 통해 시간적 추상화를 넘어 절대적인 추상화를 가능하게 하며, 경험 재사용을 통해 성능을 향상시킬 수 있다고 밝혔어요. 실험 결과, 이러한 귀납적 편향은 오프라인 GCRL 환경에서 성능 향상에 기여했어요.
상대화된 옵션을 도입하고 계층의 각 레벨에 대한 구별된 표현을 사용함으로써, 에이전트는 상태 공간의 유사한 맥락에서 경험을 재사용할 수 있어요. 이는 실제 세계의 GCRL에서 중요한 요소입니다.
연구진은 상대화된 옵션을 학습하고 절대 프레임에서 추상화하는 간단한 알고리즘 두 가지를 제안했어요. 이 연구는 오프라인 GCRL 환경에서 효율적인 학습 전략을 제시합니다.