연구진은 강화 학습(RL)에서 안정적인 정책 개선을 위한 새로운 방법인 QGF(Q-Guided Flow)를 제안했어요. QGF는 기존의 복잡한 학습 방식 대신 테스트 시간에서만 정책을 최적화하는 방식이에요.
QGF는 미리 학습된 플로우 정책과 가치 함수 비평가를 활용해, 추가적인 정책 학습 없이도 더 높은 가치의 행동을 생성하도록 안내해요.
실험 결과, QGF는 고차원 행동 공간에서 기존 테스트 시간 RL 방법보다 뛰어난 성능을 보였고, 기존 학습 시간 알고리즘과 경쟁력 있는 성능을 보여주면서도 비용 효율적이에요.