베이추안이 음성 토큰화, 오디오 LLM, 플로우 매칭 기반 오디오 디코더로 구성된 'Baichuan-Audio' 모델을 공개했어요. 음성 데이터는 음성 이해 데이터와 음성 생성 데이터로 나뉘며, 텍스트와 오디오를 번갈아 가며 처리하여 양방향 지식 전달을 돕는 데이터도 활용했어요. 모델은 24kHz 오디오로 훈련되어 고품질 멜 스펙트로그램을 생성하고, 이를 음파파 형태로 변환하는 방식으로 작동해요.