Pulse · AI 뉴스

FlowAWR: 어드밴티지 가중 수정 기반 온라인 적응형 플로우 강화 학습

FlowAWR · 2026-06-29

연구진은 연속 공간에서 생성 플로우 모델을 온라인 강화 학습으로 정렬하는 데 어려움이 있다고 밝혔습니다.

FlowAWR(Flow Advantage-Weighted Rectification)는 이론적으로 최적의 속도장을 향한 지도 학습으로 연속 생성 정책 최적화를 재구성하는 새로운 패러다임입니다.

SD3.5-Medium 환경에서 FlowAWR은 DiffusionNFT보다 2~5배 빠른 수렴 속도를 보였으며, PickScore 24.12를 1,200단계 만에 달성했습니다.

##강화학습##플로우##최적화##FlowAWR##생성모델

매일 핵심 AI 소식을 한국어로, 빠르게