연구진이 RPRL(Reward-Punishment Reinforcement Learning)의 정책 연동을 위한 프레임워크 KCPR(KL-Coupled Policy Regularization)를 제안했어요. KCPR는 보상 추구 정책과 처벌 관련 정책 간 직접적인 상호작용을 가능하게 해요.
KCPR 기반으로 KCSO(KL-Coupled Soft Optimality)를 도출하고, klDMP라는 딥 학습 모델을 개발했는데, 기존 RPRL 방식보다 안전성과 학습 안정성을 개선했어요.
Gridworld와 Gazebo 로봇 내비게이션 실험에서 DQN, SQL, softDMP와 비교해 경쟁력 있는 성능을 보이며, 정책 연동이 복합적인 행동 목표 통합에 효과적임을 입증했어요.