Pulse · AI 뉴스

베이추안, 텍스트·이미지·음성·영상 지원하는 멀티모달 모델 'Baichuan-Omni-1.5' 공개

Baichuan · 2025-01-24

베이추안이 텍스트, 이미지, 음성, 영상 입력을 지원하고 텍스트, 음성 출력을 생성하는 멀티모달 모델 'Baichuan-Omni-1.5'를 공개했어요.

이 모델은 7B 사이즈로 GPT-4o-mini, Gemini 1.5 Pro, Claude 3.5 Sonnet 등 상용 모델을 능가하는 시각 이해 능력을 보여줘요.

의료 영상 이해 능력 평가에서 Qwen2-VL-72b보다 높은 점수를 기록하며 오픈 소스 모델 중 최고 성능을 달성했어요.

##모델출시##멀티모달##베이추안

매일 핵심 AI 소식을 한국어로, 빠르게