연구진은 영상 확산 모델의 인간 의도 정렬을 위한 새로운 알고리즘 Diffusion-APO를 제안했습니다. Diffusion-APO는 훈련 노이즈와 추론 시 디노이징 경로를 동기화하여 그래디언트 신호 효율성을 극대화합니다.
새로운 RLHF 프레임워크는 온라인 순위, 반온라인 앵커링, 오프라인 개선, 증류 인식 드리프트 교정 기능을 통합하여 다양한 데이터와 계산 제약 조건 하에서 유연하고 다단계 선호도 정렬을 가능하게 합니다.
실험 결과, Diffusion-APO는 시각적 품질과 지시사항 준수 측면에서 기존 방식보다 뛰어난 성능을 보였으며, 모델 가속화 과정에서 생성적 충실도를 효과적으로 유지했습니다.