본 논문은 기회 제약 강화 학습을 기반으로 하는 분포 불변 강건 궤적 최적화 프레임워크를 제시합니다.
불확실성은 초기 조건과 공정 노이즈를 통해 표현되며, 샘플링 가능한 것이라는 요구 사항만 있습니다.
결정론적 명목 궤적을 오프라인에서 먼저 계산한 후, 피드포워드 제어 조정과 시간 가변 피드백 게인을 포함하는 구조화된 affine 폐루프 수정 법칙을 통해 강화 학습을 사용하여 해당 기준선을 강건하게 만듭니다.
확률적 타당성은 롤아웃 기반 상위 꼬리 분위수를 통해 경험적으로 시행되고, 말단 분산은 공분산 타당성 페널티를 통해 규제됩니다.