연구진이 대화형 음악 생성을 위해 오디오 확산 모델을 활용하는 Live Music Diffusion Models (LMDMs)을 제안했어요. 기존 모델보다 추론 복잡도를 개선하고, KV 캐싱을 통해 효율성을 높였어요.
LMDMs는 ARC-Forcing이라는 새로운 방식을 통해 안정적인 사후 훈련 정렬을 가능하게 하며, 강화 학습이나 보상 모델 없이도 오류 누적을 줄여요.
텍스트 기반 생성, 스케치 기반 음악 합성, 즉흥 연주 등 다양한 창의적인 분야에서 LMDMs의 활용 가능성을 입증했어요.
실제 아티스트와 AI의 협업에서 LMDMs를 '생성적 딜레이'로 활용하여 연주자의 즉흥 연주를 실시간으로 변형하는 데 사용되었어요.