Pulse · AI 뉴스

SyncDPO: 비디오-오디오 동시 생성 시 선호 학습을 통한 시간 동기화 강화

SyncDPO · 2026-05-12

SyncDPO는 비디오-오디오 동시 생성 모델의 시간 동기화 성능을 향상시키는 후처리 프레임워크입니다. 기존 방식의 시간 동기화 문제는 미세한 시간 불일치에 대한 충분한 페널티를 제공하지 못하는 MSE 손실의 한계를 극복합니다. SyncDPO는 시간 구조를 왜곡하는 규칙 기반 부정 샘플 생성 전략을 도입하여 효율성을 높였습니다.

SyncDPO는 시간 왜곡된 비디오-오디오 쌍을 통해 명시적인 부정적 감독을 제공하여 시간 정렬 능력을 강화합니다. 난이도가 점진적으로 증가하는 커리큘럼 학습 전략을 통해 미세한 불일치를 포함한 다양한 시간 불일치 문제를 해결합니다.

4가지 벤치마크에서 객관적, 주관적 실험을 통해 SyncDPO가 기존 방법보다 시간 정렬 능력이 뛰어나며, 분산 환경에서도 뛰어난 일반화 성능을 보임을 입증했습니다. 데모 및 코드는 GitHub에서 확인할 수 있습니다.

##비디오##오디오##동시생성##시간동기화##SyncDPO
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기