Pulse · AI 뉴스

선호도 레이블 부족 시: 실제 데이터 기반 디퓨전 모델 정렬

arXiv cs.CV · 2026-05-19

본 연구는 모델 생성 이미지 비교를 기반으로 하는 기존 방식의 한계를 극복하기 위해 실제 데이터를 활용한 디퓨전 모델 정렬 전략을 제시합니다. 실제 이미지를 기준으로 생성 또는 변형된 샘플과 비교하여 선호도 신호를 생성하는 방식입니다. 실험 결과, 실제 데이터 기반 감독은 디퓨전 모델 정렬에 효과적인 지침을 제공하며 기존 방식과 유사한 성능을 달성했습니다.

기존 방식은 모델이 생성한 이미지 비교에 의존하여 상대적이고 모호한 감독을 사용합니다. 실제 데이터 기반 방식은 수동으로 주석된 선호도 쌍을 필요로 하지 않으며, 실제 이미지를 기준으로 선호도 신호를 생성합니다.

연구 결과는 실제 데이터가 실용적이고 보완적인 감독 소스로 활용될 수 있음을 시사하며, 레이블 효율적인 정렬 전략의 방향을 제시합니다. 코드와 모델은 GitHub 저장소에서 확인할 수 있습니다.

##디퓨전모델##정렬##실제데이터##머신러닝##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기