Pulse · AI 뉴스

VPSD-RL: 연속 강화 학습을 위한 값 보존 구조 발견

VPSD-RL · 2026-05-08

연구진은 연속 시간 및 상태/행동 공간을 가진 강화 학습의 데이터 의존성과 변동성에 대한 취약성을 해결하기 위해 값 보존 구조를 활용하는 새로운 방법인 VPSD-RL (Value-Preserving Structure Discovery for Reinforcement Learning)을 제안했습니다.

VPSD-RL은 Lie-group 작용과 pullback 연산자를 통해 정의된 값 보존 매핑을 갖는 제어된 확산으로 연속 강화 학습을 모델링하며, Hamilton–Jacobi–Bellman 불일치가 작을 때 엄격한 보장을 갖는 근사 값 보존 구조를 찾을 수 있습니다.

연구 결과, VPSD-RL은 데이터 효율성과 강건성을 향상시키며, 연속 제어 벤치마크에서 개선된 성능을 보였습니다.

##강화학습##연속제어##VPSD-RL##Lie-group##데이터효율성
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기