연구진은 강화 학습 정책을 안전하게 만들기 위해 비용 제약 조건을 통합하면서 처음부터 다시 훈련하지 않고 정책을 미세 조정하는 방법을 제시했어요.
PREFINE은 연속적인 의사 결정 환경에서 경로 수준의 선호도를 활용하여 Direct Preference Optimization (DPO)를 적용한 미세 조정 방법이에요.
실험 결과, PREFINE은 제약 위반과 재앙적 실패를 60% 이상 줄이면서 원래 보상 행동을 유지하고 데이터 및 계산 효율성을 향상시켰어요.
PREFINE은 저비용, 고보상 성능을 달성하며, 완전한 오프라인 강화 학습이나 모방 학습보다 효율적인 안전 정책 적응을 가능하게 해요.