연구진은 강화 학습의 낮은 샘플 효율성 문제를 해결하기 위해 그룹 불변 마르코프 결정 과정(G-invariant MDP)을 활용하는 접근 방식을 제안했어요. Reflex는 상태 기반 연속 제어 작업을 위해 반사 대칭성을 활용하는 패러다임으로, 정책 학습에 반사 대칭성을 통합하는 정교한 메커니즘을 사용해요.
축 반사 및 양방향 반사와 같은 두 가지 유형의 반사 대칭성을 공식화하고, 이에 해당하는 변환을 특성화했어요. PPO 및 SAC와 통합하여 OpenAI Gym 및 DeepMind Control 벤치마크에서 기존 방식보다 우수한 성능을 보였고, 샘플 효율성도 향상됐어요.
Reflex 관련 코드는 GitHub에서 확인할 수 있어요.