본 논문은 분포형 결과에 대한 오프라인 정책 학습 문제를 다룹니다. 개별 치료 규칙을 매핑하는 정책을 학습하여 유틸리티 함수를 통해 유도된 결과 분포의 Wasserstein 바리센터에 적용된 평균 보상을 극대화하는 것이 목표입니다.
IPW와 DR 추정기를 기반으로 정책 학습 프레임워크에 대한 통계적 보장을 확립했으며, 정책 클래스 복잡성과 무한 차원 분위수 도메인에 대한 균일 편차를 처리했습니다.
일차원 Wasserstein 설정에서 유도된 보기가 정책 클래스 복잡성에 의해 지배되는 선명도를 입증하는 최소 최대 하한을 제공합니다.