연구진은 오프라인 강화 학습의 한계와 온라인 강화 학습의 어려움을 극복하기 위해 COOPO(Cyclic Offline-Online Policy Optimization)라는 새로운 프레임워크를 제시했어요. COOPO는 오프라인 학습과 온라인 미세 조정을 반복하며, 데이터셋 활용도를 높이고 온라인 환경과의 상호작용을 줄여요.
KL 정규화와 장점 가중치를 활용한 오프라인 업데이트를 통해 분포 변화를 최소화하고, 온라인 미세 조정을 통해 안정적인 탐색을 가능하게 해요. 주기적으로 오프라인 학습으로 돌아가면서 망각과 드리프트를 방지하고 성능을 향상시킵니다.
D4RL 벤치마크 테스트 결과, COOPO는 기존 하이브리드 방식보다 온라인 상호작용을 줄이면서 더 높은 최종 보상을 달성했으며, 다양한 오프라인 알고리즘과 온라인 최적화 기법에 대한 강건성을 유지했어요.