연구진은 불확실한 전환 환경에서 정책 최적화의 데이터 의존적 후회 경계를 달성하는 새로운 알고리즘을 개발했어요. 낙관적 follow-the-regularized-leader 방식을 기반으로 설계되었으며, 전환 복잡도에 따른 성능 제한을 분석했어요. 데이터 의존적 전환 보너스를 통해 예측 오류를 제어하고, stochastic 환경에서 gap-dependent polylog(T) 후회를 달성했어요.