Pulse · AI 뉴스

지수 효용 강화를 위한 강화 학습: 할인된 MDP에서 알고리즘 및 수렴

Reinforcement Learning · 2026-05-09

본 연구는 할인된 마르코프 결정 과정(MDP)에서 지수 효용 최적화를 위한 강화 학습(RL)에 대한 원리 기반 가치 기반 알고리즘 부족 문제를 해결합니다.

두 가지 Q-값 스타일 확장을 도출하고, 각각의 연산자가 $L_ ext{∞}$ 및 sup-log/Thompson 미적에서 수축임을 보여주며, 유도된 탐욕적 정거주 정책이 정거주 정책 중에서 지수 효용 목적에 최적임을 증명합니다.

두 가지 모델-프리 알고리즘을 제시하며, 거의 확실한 수렴을 확립하고, 시간 척도 분리를 통해 유한 시간 수렴 속도를 제공하며, 벡터 경우에 수렴 속도를 얻는 데 어려움이 있음을 강조하는 스칼라 유한 시간 분석을 제공합니다.

##강화학습##최적화##MDP##수렴

매일 핵심 AI 소식을 한국어로, 빠르게