본 연구는 연속 액션 강화 학습에서 혼합 정책의 이론적 유연성이 실제 이점을 제공하는지 분석합니다. 표준 알고리즘은 혼합 정책의 장점을 활용하지 못하는데, 이는 혼합 정책에 대한 저분산 재파라미터화 트릭이 부족하기 때문입니다. 연구진은 혼합 정책의 분산을 줄이는 마진화 재파라미터화(MRP) 추정기를 제안하고, Gym MuJoCo, DeepMind Control Suite, MetaWorld 환경에서 실험을 통해 성능 향상을 입증했습니다.