Pulse · AI 뉴스

SMDP 평균 보상 강화 학습의 조화 평균 공식

arXiv cs.AI · 2026-05-06

최근 연구로 인해 무한 지평선, 비에피소드(연속) 작업에서 평균 보상 강화 학습 알고리즘에 대한 관심이 높아졌습니다.

특히, SMDP(Semi-Markov Decision Process)가 주목받고 있으며, 이는 이산 행동이 확률적으로 보상과 지속 시간을 생성하는 프로세스입니다.

본 논문에서는 비정상적인 조건에서도 보상률을 정확하게 계산하는 새로운 수정된 조화 평균 연산자를 제시하여, SMDP에서 작동하는 모델 프리 학습 알고리즘을 개발했습니다.

##강화학습##SMDP##평균보상##조화평균##알고리즘
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기