Pulse · AI 뉴스

부분 관측 마르코프 게임에서 Minimax-최적 정책 후회 연구

arXiv cs.LG · 2026-06-02

연구진은 부분 관측 환경에서 전략적 적대자에 맞서는 순차적 의사 결정 문제를 연구했어요. 표준 후회 개념의 한계를 극복하기 위해 새로운 알고리즘을 개발했어요. 이 알고리즘은 epoch 기반의 낙관적 최대 우도법을 사용하여 정책 후회를 최소화해요.

개발된 알고리즘은 문제 파라미터가 고정된 경우 $ ilde{O}( ext{√}T)$ 정책 후회를 달성하며, 수평, 적대자 메모리, 신뢰 반경, 관측 가능 연산자 클래스의 Eluder 차원에 따라 달라져요. epoch 기반으로 정책을 선택하고, 과거 데이터를 누적하여 신뢰 집합을 구축해요.

##게임이론##강화학습##부분관측##최적정책##후회최소화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기