Pulse · AI 뉴스

다항 로지스틱 MDP에서 최적의 분산 인지 후회 경계

arXiv cs.AI · 2026-05-19

연구진은 에피소드 마르코프 결정 프로세스(MDP)에서 강화 학습을 연구했어요. 이 프로세스의 전환은 다항 로지스틱(MNL) 모델로 모델링돼요.

새로운 알고리즘은 학습자의 궤적을 따라 최적의 하위 값 함수의 정규화 평균 분산을 측정하는 문제 종속 상수 $arσ_T$ 를 도입했어요.

KL 제약 조건이 있는 강력한 MDP의 경우 $arσ_T = O(H^{-1})$ 이므로, 지평선 의존성이 $H$ 배 감소돼요.

##강화학습##MDP##최적화##알고리즘

매일 핵심 AI 소식을 한국어로, 빠르게