Pulse · AI 뉴스

Drifting Preference Optimization: 1단계 생성 모델의 선호도 최적화

SDXL-Turbo · 2026-06-02

연구진은 1단계 텍스트-이미지 생성 모델의 선호도 미세 조정을 위한 온라인 방법인 Drifting Preference Optimization (DrPO)을 제안했어요.

DrPO는 각 프롬프트에 대해 후보를 샘플링하고, 목표 보상을 기준으로 순위를 매겨, 특징 공간 업데이트 방향을 합성해요. 이를 통해 HPSv3 훈련 연산량을 3.51배 줄일 수 있었어요.

SD-Turbo와 SDXL-Turbo에서 다양한 목표 보상과 벤치마크를 통해 DrPO를 평가했으며, 기존 방법 대비 성능 향상을 확인했어요.

##모델출시##이미지생성##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기