Moonshot AI에서 음성 이해, 생성, 대화 기능을 갖춘 오픈소스 오디오 파운데이션 모델 Kimi-Audio-7B-Instruct를 공개했어요. Kimi-Audio는 음성 인식, 오디오 질문 답변, 오디오 캡셔닝 등 다양한 오디오 처리 작업을 하나의 프레임워크로 처리할 수 있어요. 1300만 시간 이상의 다양한 오디오 및 텍스트 데이터로 사전 훈련되었으며, 효율적인 추론을 위한 새로운 아키텍처를 사용해요.