베이추안이 텍스트, 이미지, 음성, 영상 입력을 지원하고 텍스트, 음성 출력을 생성하는 멀티모달 모델 'Baichuan-Omni-1.5'를 공개했어요. 이 모델은 7B 사이즈로 GPT-4o-mini, Gemini 1.5 Pro, Claude 3.5 Sonnet 등 상용 모델을 능가하는 시각 이해 능력을 보여줘요. 의료 영상 이해 능력 평가에서 Qwen2-VL-72b보다 높은 점수를 기록하며 오픈 소스 모델 중 최고 성능을 달성했어요.