Pulse · AI 뉴스

정책 연동 강화 학습: RPRL 성능 및 안전성 향상

klDMP · 2026-06-26

연구진이 RPRL(Reward-Punishment Reinforcement Learning)의 정책 연동을 위한 프레임워크 KCPR(KL-Coupled Policy Regularization)를 제안했어요. KCPR는 보상 추구 정책과 처벌 관련 정책 간 직접적인 상호작용을 가능하게 해요.

KCPR 기반으로 KCSO(KL-Coupled Soft Optimality)를 도출하고, klDMP라는 딥 학습 모델을 개발했는데, 기존 RPRL 방식보다 안전성과 학습 안정성을 개선했어요.

Gridworld와 Gazebo 로봇 내비게이션 실험에서 DQN, SQL, softDMP와 비교해 경쟁력 있는 성능을 보이며, 정책 연동이 복합적인 행동 목표 통합에 효과적임을 입증했어요.

##강화학습##RPRL##정책연동##klDMP
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기