Pulse · AI 뉴스

Reflex: 상태 기반 연속 제어에서 반사 대칭성 활용 강화 학습

Reflex · 2026-05-22

연구진은 강화 학습의 낮은 샘플 효율성 문제를 해결하기 위해 그룹 불변 마르코프 결정 과정(G-invariant MDP)을 활용하는 접근 방식을 제안했어요. Reflex는 상태 기반 연속 제어 작업을 위해 반사 대칭성을 활용하는 패러다임으로, 정책 학습에 반사 대칭성을 통합하는 정교한 메커니즘을 사용해요.

축 반사 및 양방향 반사와 같은 두 가지 유형의 반사 대칭성을 공식화하고, 이에 해당하는 변환을 특성화했어요. PPO 및 SAC와 통합하여 OpenAI Gym 및 DeepMind Control 벤치마크에서 기존 방식보다 우수한 성능을 보였고, 샘플 효율성도 향상됐어요.

Reflex 관련 코드는 GitHub에서 확인할 수 있어요.

##강화학습##대칭성##Reflex##PPO##SAC
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기