연구진이 강화 학습 벤치마크인 마운틴 카 문제를 분석적으로 해결하고 36년 만에 최적 제어 솔루션을 도출했어요. 최적 제어는 단순하지만 최신 강화 학습 에이전트는 최적성에 큰 격차를 보여요.
분석을 바탕으로 Chebyshev 정책을 처음부터 정의하여 다양한 강화 학습 정책으로 활용 가능성을 제시했어요. 신경망 대체 시 후회는 4.18배 감소하고 파라미터는 277배 적게 필요해요.
Chebyshev 정책은 추가적인 강화 학습 작업과 실제 비선형 동작 제어 테스트베드에서 신경망보다 성능이 향상되었으며, 저차원 제어 작업에 대한 가벼운 대안을 제공해요.