연구진이 오프라인 강화 학습에서 trajectory 레벨의 결과 감독 학습에 대한 통계 이론을 개발했어요. OPAC라는 알고리즘을 제안하여 trajectory 레벨의 레이블로부터 정책을 학습하며, 고확률 보장 성능을 입증했어요.
trajectory 레벨의 결과 감독 학습은 일반적인 성공 목표에서 Ω(2^H)개의 trajectory를 필요로 하지만, 특정 구조 계수를 만족하면 다항식 샘플 복잡도를 달성할 수 있어요.
본 연구는 결과 레벨의 감독 학습이 샘플 효율적인 오프라인 제어를 가능하게 하는 조건과, 과정 레벨의 보상을 놓치면 발생하는 근본적인 통계적 장벽을 규명했어요.