Pulse · AI 뉴스

데이터 속에 숨겨진 보상: 디스크리미네이터 기반 강화학습으로 플로우 매칭 교정

플로우 매칭 · 2026-06-17

연구진은 플로우 매칭 모델이 주관적 선호도 정렬과 시각적 현실성 회복에 강화학습에 의존하는 이유가 구조적 불일치 때문이라고 주장해요.

디스크리미네이터 기반 강화학습(DRL)을 제안하여 사전 학습된 표현 공간에서 데이터와 기본 모델 샘플을 분리하는 디스크리미네이터를 학습하고, 로그 가능도 비율을 보상으로 활용해요.

SiT, JiT, REPA, RAE에서 DRL은 가이드 없는 FID 점수를 줄이고, 인간 선호도 보상을 개선하며, 이미지 충실도와 선호도 보상의 파레토 프론티어를 개선했어요.

DRL은 사전 학습된 공간에서 디스크리미네이터가 의미 있는 방향으로 작동하도록 제한하고, 데이터 분포를 타겟팅하기 위한 최적의 보상을 추정해요.

##강화학습##플로우매칭##이미네이션##DRL

매일 핵심 AI 소식을 한국어로, 빠르게