Pulse · AI 뉴스

Khala: 고품질 음악 생성을 위한 음향 토큰 언어 모델 확장

Khala · 2026-05-03

연구진은 고품질 음악 생성을 위해 구조와 디테일을 분리된 공간에서 처리하는 기존 방식 대신, 단일 음향 토큰 계층 구조 내에서 점진적으로 모델링하는 새로운 프레임워크인 Khala를 제안했습니다.

Khala는 64계층의 잔차 벡터 양자화(RVQ) 음향 표현을 사용하며, 2단계의 조잡-세밀 방식 생성 프레임워크를 통해 전체 트랙의 음향 토큰을 생성하고, 이후 세밀한 토큰을 계층별로 병렬로 처리하여 고품질 음악을 생성합니다.

연구 결과, 텍스트-보컬 정렬이 별도의 의미 토큰 단계를 거치지 않고도 순수한 음향 토큰 언어 모델링 내에서 자연스럽게 나타날 수 있으며, 슈퍼 해상도 모델을 학습된 백본 모델에서 초기화하면 수렴 속도와 최종 품질이 향상되는 것을 확인했습니다.

##음악생성##음향토큰##Khala
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기