Pulse · AI 뉴스

Flow-DPPO: 흐름 매칭 모델의 정책 최적화 방법

Tencent · 2026-06-09

연구진이 Flow-DPPO(Flow Divergence Proximal Policy Optimization)라는 새로운 정책 최적화 방법을 제안했어요. 기존 PPO 방식의 ratio clipping 방식이 흐름 모델에 적합하지 않다는 문제점을 지적하고, KL divergence를 활용한 새로운 제약 조건을 도입했어요. 실험 결과, Flow-DPPO는 더 높은 보상을 얻고, KL divergence 제약 효율성이 향상되는 것을 확인했어요.

Flow-DPPO는 기존 방식의 단점을 보완하여 재앙적 망각을 완화하고, 균형 잡힌 다중 목표 최적화를 가능하게 하며, 안정적인 다중 에포크 훈련을 지원해요. 연구 결과와 코드는 GitHub에서 확인할 수 있어요.

##FlowDPPO##정책최적화##흐름매칭##강화학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기