베이추안이 Qwen2.5-VL-7B-Instruct 모델을 기반으로 의료 보고서 데이터셋으로 튜닝한 BaichuanMed-OCR-7B 모델을 공개했어요. 이 모델은 의료 보고서 이미지의 광학 문자 인식(OCR)과 관련 질문 답변을 수행하도록 설계됐어요.
BaichuanMed-OCR-7B는 복잡한 의료 보고서 이미지 내 텍스트를 정확하게 인식하고, 구조화된 마크다운 형식으로 정보를 출력하며, 사용자의 질문에 대해 관련 답변을 생성하는 기능을 제공해요.
비교 벤치마크 테스트에서 BaichuanMed-OCR-7B는 83.5%의 정확도를 기록하며 Qwen2.5-VL-7B-Instruct (71.3%)보다 높은 성능을 보여줬고, BaichuanMed-OCR-72B는 88.6%의 최고 정확도를 달성했어요.