연구진은 행동 복제(BC) 정책에서 Q-함수를 추출하여 온라인 강화 학습(RL)을 지원하는 Q2RL 알고리즘을 제안했습니다.
Q2RL은 환경과의 상호작용을 통해 Q-함수를 추정하고, BC와 RL 정책의 Q-값을 기반으로 정책을 전환하여 RL 정책 훈련에 필요한 샘플을 수집합니다.
D4RL 및 robomimic 벤치마크에서 Q2RL은 기존 오프라인-온라인 학습 방법보다 높은 성공률과 빠른 수렴 속도를 보였으며, 파이프 조립 및 키팅과 같은 작업에서 1~2시간의 온라인 상호작용으로 100%의 성공률을 달성했습니다.