베이추안이 텍스트, 이미지, 음성, 영상 입력을 지원하고 텍스트, 음성 출력을 생성하는 멀티모달 모델 'Baichuan-Omni-1.5'를 공개했어요.
이 모델은 기존 모델보다 텍스트, 이미지, 음성, 영상 이해 능력과 텍스트, 음성 생성 능력이 크게 향상되었으며, 실시간 음성 대화와 멀티모달 실시간 상호작용 기능을 지원해요.
Baichuan-Omni-1.5는 7B 사이즈로 GPT-4o-mini, Gemini 1.5 Pro, Claude 3.5 Sonnet 등 상용 모델을 능가하는 시각 이해 능력을 보여줘요.