연구진은 산업용 수준의 컴퓨팅 자원이 필요했던 기존 실시간 음악 생성 모델의 한계를 극복하기 위해 오디오 디퓨전 모델을 활용하는 Live Music Diffusion Models (LMDMs)를 제안했어요.
LMDMs는 블록별 KV 캐싱을 통해 기존 실시간 모델(LMMs)의 추론 복잡도를 회복하고 능가하며, ARC-Forcing 기술로 안정적인 후처리 정렬을 가능하게 해요.
텍스트 기반 생성, 스케치 기반 음악 합성, 즉흥 연주 등 다양한 창작 분야에서 LMDMs의 활용 가능성을 입증했으며, 실제 아티스트와 AI의 협업 환경에서 '생성적 딜레이' 역할을 수행하는 것을 보여줬어요.
LMDMs는 소비자용 게이밍 노트북에서 로컬로 실행되며, 변조 음색 효과를 위한 뮤지션의 즉흥 연주를 실시간으로 변환하는 데 사용될 수 있어요.