Pulse · AI 뉴스

강화 학습에서 상태별 안전을 위한 증강 라그랑주 승수 네트워크

arXiv cs.AI · 2026-05-01

본 연구는 강화 학습에서 안전 문제를 해결하기 위해 상태별 제약 조건을 활용하는 새로운 방법인 ALaM(Augmented Lagrangian Multiplier Network) 프레임워크를 제안합니다.

ALaM은 정책 진동을 완화하기 위해 이차 페널티를 도입하고, 승수 네트워크를 이중 목표에 대한 지도 회귀 방식으로 훈련하여 안정적인 학습을 가능하게 합니다.

실험 결과, SAC-ALaM 알고리즘은 기존 안전 강화 학습 방법보다 안전성과 보상을 모두 향상시키고, 훈련 역학을 안정화하며 위험 식별을 위한 잘 보정된 승수를 학습하는 것으로 나타났습니다.

##강화학습##안전강화학습##ALaM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기