Pulse · AI 뉴스

Stochastic Minimum-Cost Reach-Avoid 강화 학습 연구

arXiv cs.LG · 2026-05-12

연구진은 확률적 환경에서 특정 목표 달성 확률을 보장하면서 누적 비용을 최소화하는 stochastic minimum-cost reach-avoid 강화 학습을 연구했습니다.

reach-avoid probability certificates (RAPCs)를 도입하여 확률적 목표 달성 제약 조건을 만족하는 상태를 식별하고, 이를 기반으로 Bellman 방정식을 활용하여 비용 최적화를 가능하게 했습니다.

MuJoCo 시뮬레이터 실험 결과, 기존 방법 대비 비용 성능이 향상되고 목표 달성률이 높아졌습니다.

##강화학습##안전강화학습##최적화

매일 핵심 AI 소식을 한국어로, 빠르게