Pulse · AI 뉴스

베이추안, 음성 상호작용 기반 모델 'Baichuan-Audio' 공개

Baichuan · 2025-02-21

베이추안이 음성 토큰화, 오디오 LLM, 플로우 매칭 기반 오디오 디코더로 구성된 음성 상호작용 기반 모델 'Baichuan-Audio'를 공개했어요.

모델은 음성을 이산 오디오 토큰으로 변환하고, 텍스트와 오디오 토큰을 교차하며 생성하여 텍스트와 오디오 간의 원활한 모달리티 전환을 지원해요.

24kHz 오디오 데이터로 학습하여 고품질 멜 스펙트로그램을 재구성하고, 보코더를 통해 오디오 파형으로 변환하는 방식으로 작동해요.

##음성모델##오디오##베이추안##오픈소스##모델출시
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기