연구진이 OrderGrad라는 새로운 정책 경사 추정 방법을 제시했어요. OrderGrad는 VaR, CVaR, 중앙값, 상위 m/최고 m 기준과 같은 순위 통계 목표를 최적화하는 데 사용돼요. 기존 방법이 평균 수익을 최적화하는 반면, OrderGrad는 꼬리 위험, 이상치 강건성, 최고 m 발견과 같은 분포적 특성을 고려해요. OrderGrad는 표준 정책 경사 또는 재매개변수 업데이트에서 사용될 수 있는 간단한 보상 변환으로 구현돼요.