연구진이 Flow-DPPO(Flow Divergence Proximal Policy Optimization)라는 새로운 정책 최적화 방법을 제안했어요. 기존 PPO 방식의 ratio clipping 방식이 흐름 모델에 적합하지 않다는 문제점을 지적하고, KL divergence를 활용한 새로운 제약 조건을 도입했어요.
Flow-DPPO는 기존 방식보다 더 높은 보상을 얻고, KL divergence 제약 효율성을 개선하며, catastrophic forgetting을 완화하고, 균형 잡힌 다중 목표 최적화를 가능하게 해요.
GitHub에서 관련 코드와 모델을 확인할 수 있어요 (https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO).