Pulse · AI 뉴스

베이추안, 텍스트·이미지·음성·영상 지원하는 멀티모달 모델 'Baichuan-Omni-1.5' 공개

Baichuan · 2025-01-24

베이추안이 텍스트, 이미지, 음성, 영상 입력을 지원하고 텍스트, 음성 출력을 생성하는 멀티모달 모델 'Baichuan-Omni-1.5'를 공개했어요.

이 모델은 기존 모델보다 텍스트, 이미지, 음성, 영상 이해 능력과 텍스트, 음성 생성 능력이 크게 향상되었으며, 실시간 음성 대화와 멀티모달 실시간 상호작용 기능을 지원해요.

Baichuan-Omni-1.5는 7B 사이즈로 GPT-4o-mini, Gemini 1.5 Pro, Claude 3.5 Sonnet 등 상용 모델을 능가하는 시각 이해 능력을 보여줘요.

##모델출시##멀티모달##베이추안

매일 핵심 AI 소식을 한국어로, 빠르게