베이추안이 음성 토큰화, 오디오 LLM, 플로우 매칭 기반 오디오 디코더로 구성된 음성 상호작용 기반 모델 'Baichuan-Audio'를 공개했어요. 모델은 음성을 이산 오디오 토큰으로 변환하고, 텍스트와 오디오 토큰을 교차하며 생성하여 텍스트와 오디오 간의 원활한 모달리티 전환을 지원해요. 24kHz 오디오 데이터로 학습하여 고품질 멜 스펙트로그램을 재구성하고, 보코더를 통해 오디오 파형으로 변환하는 방식으로 작동해요.