연구진은 1단계 텍스트-이미지 생성 모델의 선호도 미세 조정을 위한 온라인 방법인 Drifting Preference Optimization (DrPO)을 제안했어요.
DrPO는 각 프롬프트에 대해 후보를 샘플링하고, 목표 보상을 기준으로 순위를 매겨, 특징 공간 업데이트 방향을 합성해요. 이를 통해 HPSv3 훈련 연산량을 3.51배 줄일 수 있었어요.
SD-Turbo와 SDXL-Turbo에서 다양한 목표 보상과 벤치마크를 통해 DrPO를 평가했으며, 기존 방법 대비 성능 향상을 확인했어요.