연구진은 사전 학습된 플로우 정책의 오프라인 강화 학습 시 불안정성 문제를 해결하기 위해 어조합치(QAM)를 활용한 Q-러닝 방법을 제안했어요.
새로운 방법인 신뢰 영역 Q 어조합치(TRQAM)는 사전 학습된 플로우 정책과의 경로 공간 KL 발산을 제어하며, 사전 학습된 플로우 정책에서 벗어나는 정도를 정확하게 제어하여 안정적인 오프라인 강화 학습을 가능하게 해요.
OGBench 작업 50개에서 TRQAM은 기존 방법보다 뛰어난 성능을 보였으며, 오프라인 강화 학습 성공률을 68%까지 끌어올렸어요.