본 연구는 목표 조건 강화 학습(GCRL)과 비지도 기술 학습(MISL)의 이론적 토대를 정립하고, 두 방법이 제어 극대화의 일종임을 밝혀냈습니다.
연구 결과, GCRL 공식은 서로 호환되지 않는 최적 정책을 유도할 수 있으며, MISL 방법은 다운스트림 목표 감도를 측정하는 것으로 이해할 수 있습니다.
MISL 방법과 다운스트림 GCRL 작업 간의 정확한 대응 관계를 보여주며, 특정 GCRL 작업에 적합한 사전 훈련 목표를 선택하는 데 도움을 줄 수 있습니다.