Moonshot AI가 음성 이해, 생성, 대화 기능을 갖춘 오픈 소스 오디오 파운데이션 모델 Kimi-Audio-7B를 공개했어요. Kimi-Audio는 다양한 오디오 처리 작업을 하나의 프레임워크로 처리하며, 여러 오디오 벤치마크에서 최고 성능을 달성했어요. 1300만 시간 이상의 다양한 오디오 및 텍스트 데이터로 사전 훈련되었으며, 텍스트와 오디오 토큰 생성을 위한 병렬 헤드를 갖춘 새로운 아키텍처를 사용해요.