연구진은 인간 선호도에 맞춰 플로우 기반 생성 모델을 훈련하는 최적 제어 문제를 제안했어요. 역전파 매칭 기법을 통해 현재 정책 하에서 제어 값을 직접 회귀시켜 간단하고 안정적인 훈련 목표를 달성할 수 있습니다. SiT-XL/2 및 FLUX.2-Klein-4B 모델 실험 결과, 다양한 정합 지표에서 일관된 성능 향상과 함께 향상된 다양성 및 모드 보존 효과를 확인했어요.