Pulse · AI 뉴스

RAT: 직접 역전파를 통한 자연 정책 그래디언트 계산

arXiv cs.LG · 2026-05-19

연구진은 자연 정책 그래디언트 추정을 위한 새로운 방법인 RAT(Randomized Advantage Transformation)을 제시했어요. RAT은 Tikhonov 정규화된 자연 정책 그래디언트를 직접 역전파를 통해 효율적으로 계산하며, Fisher 행렬 구축이나 복잡한 솔버를 사용하지 않아요. 실험 결과, RAT은 기존 자연 그래디언트 방법과 성능이 비슷하거나 뛰어넘는 것을 확인했어요.

RAT은 Woodbury 공식을 활용하여 정규화된 자연 정책 그래디언트를 일반적인 정책 그래디언트 형태로 변환하며, 랜덤 블록 Kaczmarz 반복을 통해 변환을 효율적으로 계산해요. 이를 통해 다양한 아키텍처에서 간단하게 구현하고 활용할 수 있어요.

연구진은 RAT의 수렴성을 보장하며, 연속 및 시각 제어 벤치마크에서 기존 방법과 동등하거나 더 나은 성능을 달성하는 것을 입증했어요.

##정책그래디언트##강화학습##RAT##역전파
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기