연구진은 강화 학습 후처리 과정에서 생성 모델의 보상 정렬은 개선되지만, 시각적 품질 저하가 발생한다고 밝혔습니다. 이 품질 저하가 보상 프록시에서 포착되지 않는다는 점을 확인했습니다.
NFT, AWM, DPO 등 세 가지 후처리 방법에서 단계별 속도 정규 |v_θ|가 기준값 대비 5%~15%로 팽창하는 구조적 특징을 발견했습니다.
NormGuard(NormGuard)는 |v_θ|가 |v_{ref}|를 초과할 때만 활성화되는 힌지 페널티로, 어떤 속도 기반 기본 손실과도 가산적으로 결합됩니다.
NormGuard는 두 가지 기본 모델, 세 가지 후처리 방법, 두 가지 보상 프록시에서 MLLM 평가 이미지 품질과 법의학적 사실성을 개선하며 보상을 유지합니다.