Pulse · AI 뉴스

정밀: SDE 일관성 기반의 흐름 매칭 모델 RL 사후 훈련을 위한 확률적 샘플링

flow-matching · 2026-05-22

연구진은 흐름 매칭 생성 모델의 온라인 강화 학습(RL) 적용 시 확률적 샘플러 설계의 중요성을 강조했어요.

탐색과 안정성 간의 균형을 맞춘 새로운 SDE 스케줄을 제안하고, 기존 샘플러의 문제점을 분석하여 SDE 일관성을 유지하는 Precise 샘플러를 개발했어요.

실험 결과, Precise 샘플러는 기존 샘플러 대비 더 빠르고 안정적인 보상 최적화를 달성하며, 최고 수준의 정렬 점수를 얻는 데 필요한 훈련 시간을 13.1~53.2% 단축했어요.

##강화학습##흐름매칭##SDE##샘플링##최적화

매일 핵심 AI 소식을 한국어로, 빠르게