Pulse · AI 뉴스

NormGuard: 보상 유지 보존을 위한 흐름 매칭 강화 학습에서의 정규 제약

NormGuard · 2026-06-26

연구진은 강화 학습 후처리 과정에서 생성 모델의 보상 정렬은 개선되지만, 시각적 품질 저하가 발생한다고 밝혔습니다. 이 품질 저하가 보상 프록시에서 포착되지 않는다는 점을 확인했습니다.

NFT, AWM, DPO 등 세 가지 후처리 방법에서 단계별 속도 정규 |v_θ|가 기준값 대비 5%~15%로 팽창하는 구조적 특징을 발견했습니다.

NormGuard(NormGuard)는 |v_θ|가 |v_{ref}|를 초과할 때만 활성화되는 힌지 페널티로, 어떤 속도 기반 기본 손실과도 가산적으로 결합됩니다.

NormGuard는 두 가지 기본 모델, 세 가지 후처리 방법, 두 가지 보상 프록시에서 MLLM 평가 이미지 품질과 법의학적 사실성을 개선하며 보상을 유지합니다.

##강화학습##흐름매칭##NormGuard##이미지품질

매일 핵심 AI 소식을 한국어로, 빠르게