연구진이 실제 환경에서 수집한 경험을 활용해 실시간 조작 정책을 개선하는 DexPIE 프레임워크를 제안했어요. DexPIE는 실시간 조작에 적합한 개입 시스템과 다단계 DAgger 방식을 통해 효과적인 탐색 범위를 확보하고, 정책 평가를 위한 신뢰성 있는 감독 신호를 제공해요. 실시간 정책 롤아웃과 데모 데이터 간의 시간적 노이즈를 줄이기 위해 상대적 행동 공간에서 비동기 추론을 도입하고, 연속적인 최적성 지표를 활용해 정책을 개선했어요.