마르코프 의사결정 문제에서 위험 회피를 위한 새로운 마르코프 코히런트 위험 측정 방법인 미니배치 측정을 도입했습니다. 다패턴 위험 회피 문제를 정의하여 선형 시스템을 일반화하고, 이를 기반으로 Q-러닝 방법을 개발했습니다. 개발된 방법은 H, N, K에 대한 고확률 후회 경계인 O(H^2 N^H √ K)를 보장하며, 정책 평가 단계를 간소화하는 경제적인 버전도 제안했습니다.