연구진은 휴머노이드 로봇 조작 시 인간의 개입을 활용하는 ROVE라는 강화 학습 프레임워크를 제안했어요. ROVE는 인간의 불완전한 개입 데이터에서도 고성능 행동을 학습하기 위해 Optimistic Value Estimation (OVE) 기술을 사용해요. 실험 결과, ROVE는 기존 방식보다 뛰어난 성능을 보였으며, 반복적인 개입을 통해 지속적으로 개선되는 모습을 확인했어요.