Pulse · AI 뉴스

마르코프 위험 측정 및 다패턴 위험 근사를 이용한 강화 학습

arXiv cs.AI · 2026-05-01

마르코프 의사결정 문제에서 위험 회피를 위한 새로운 마르코프 코히런트 위험 측정 방법인 미니배치 측정을 도입했습니다.

다패턴 위험 회피 문제를 정의하여 선형 시스템을 일반화하고, 이를 기반으로 Q-러닝 방법을 개발했습니다.

개발된 방법은 H, N, K에 대한 고확률 후회 경계인 O(H^2 N^H √ K)를 보장하며, 정책 평가 단계를 간소화하는 경제적인 버전도 제안했습니다.

##강화학습##위험측정##Q러닝##마르코프

매일 핵심 AI 소식을 한국어로, 빠르게