Pulse · AI 뉴스

AutoSafe: 안전한 온라인 학습을 위한 안전성 구조 정책 합성

AutoSafe · 2026-06-30

연구진은 안전 제약 준수와 부드러운 최적화 동역학 유지를 결합한 AutoSafe라는 안전 인식 정책 아키텍처를 제안했어요. AutoSafe는 성능 중심 행동과 안전 보존 행동 간의 위험 의존적 전환을 가능하게 하여 지속적인 온라인 상호 작용과 학습 동역학을 가능하게 해요. 연속 제어 벤치마크에서 안전성 강제와 학습 부드러움 모두 우수함을 입증했어요.

기존 방식은 행동 개입을 통한 엄격한 안전성 강제 또는 부드러운 학습을 제공하지만 안전성 보장은 제한적인 반면, AutoSafe는 안전 모니터링과 개입을 직접 통합하여 이 문제를 해결했어요. 실제 카트-폴 시스템에서도 효과를 검증하여 실시간 안전 학습에 적합함을 보였어요.

AutoSafe는 시스템 상호 작용 및 학습에서 발생하는 불연속성을 줄여 안전한 온라인 강화 학습을 위한 새로운 접근 방식을 제시하며, 향후 로봇 제어 등 실제 환경 적용 가능성을 높일 것으로 기대돼요.

##안전강화학습##온라인학습##AutoSafe##정책최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기