Pulse · AI 뉴스

데이터 속에 숨겨진 보상: 디스크리미네이터 기반 RL로 플로우 매칭 교정

FlowMatching · 2026-06-18

연구진은 스코어 매칭 모델이 주관적인 선호도 정렬뿐 아니라 시각적 사실감과 일관된 객체 구조 회복에도 RL을 사용하는 이유가 구조적 불일치에서 비롯된다고 주장했어요.

매칭 손실은 훈련 시간 주변 분포 하의 속도 또는 스코어 필드에 대한 L2 회귀 오류를 측정하는데, 이는 추론 시 샘플 품질을 결정하는 시각적, 의미적 특성과 제대로 정렬되지 않은 것입니다.

연구진은 디스크리미네이터 기반 RL(DRL)을 제안하여 사전 훈련된 표현 공간에서 데이터와 기본 모델 샘플을 분리하는 디스크리미네이터를 훈련하고, KL 정규화된 RL에서 로그이트를 보상으로 사용해요.

SiT, JiT, REPA, RAE에서 DRL은 guidance-free FID를 줄이고 인간 선호도 보상을 개선하며, 후속 선호도 기반 추가 훈련에서 정렬을 높이고 과도한 채도 및 밝기 같은 저수준 아티팩트를 줄여요.

##RL##FlowMatching##Discriminator##GenerativeModels

매일 핵심 AI 소식을 한국어로, 빠르게