Pulse · AI 뉴스

자일코프-가이드 자기 정렬: 테스트 시간 적응을 위한 오프라인 안전 강화 학습

arXiv cs.AI · 2026-04-29

연구진은 오프라인 강화 학습 환경에서 안전하지 않은 행동을 줄이기 위해 SAS(자기 정렬을 통한 안전)라는 새로운 프레임워크를 제시했어요.

SAS는 사전 훈련된 에이전트가 테스트 시간에 여러 개의 상상된 경로를 생성하고, 자일코프 조건을 만족하는 경로를 선택하여 안전하게 행동하도록 재정렬해요.

안전 환경과 MuJoCo 벤치마크에서 SAS는 비용을 줄이고 실패를 방지하며, 수익을 유지하거나 향상시키는 것으로 나타났어요.

##강화학습##안전##오프라인RL##SAS##Lyapunov
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기