연구진은 부분 관측 환경에서 전략적 적대자에 맞서는 순차적 의사 결정 문제를 연구했어요. 표준 후회 개념의 한계를 극복하기 위해 새로운 알고리즘을 개발했어요. 이 알고리즘은 epoch 기반의 낙관적 최대 우도법을 사용하여 정책 후회를 최소화해요.
개발된 알고리즘은 문제 파라미터가 고정된 경우 $ ilde{O}( ext{√}T)$ 정책 후회를 달성하며, 수평, 적대자 메모리, 신뢰 반경, 관측 가능 연산자 클래스의 Eluder 차원에 따라 달라져요. epoch 기반으로 정책을 선택하고, 과거 데이터를 누적하여 신뢰 집합을 구축해요.