Pulse · AI 뉴스

Flow-DPPO: 흐름 매칭 모델의 정책 최적화 방법

Tencent · 2026-06-10

연구진이 Flow-DPPO(Flow Divergence Proximal Policy Optimization)라는 새로운 정책 최적화 방법을 제안했어요. 기존 PPO 방식의 ratio clipping 방식이 흐름 모델에 적합하지 않다는 문제점을 지적하고, KL divergence를 활용한 새로운 제약 조건을 도입했어요.

Flow-DPPO는 기존 방식보다 더 높은 보상을 얻고, KL divergence 제약 효율성을 개선하며, catastrophic forgetting을 완화하고, 균형 잡힌 다중 목표 최적화를 가능하게 해요.

GitHub에서 관련 코드와 모델을 확인할 수 있어요 (https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO).

##FlowDPPO##정책최적화##흐름매칭

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기