Pulse · AI 뉴스

GLM-OCR 공개: 복잡한 문서 이해를 위한 다중 모드 OCR 모델

Z.ai (GLM) · 2026-01-30

GLM-V 아키텍처 기반의 다중 모드 OCR 모델 GLM-OCR이 공개되었어요. 복잡한 문서 이해를 위해 Multi-Token Prediction 손실 함수와 강화 학습을 적용했어요.

GLM-OCR은 OmniDocBench V1.5에서 94.62의 높은 점수를 기록하며 문서 이해 벤치마크에서 뛰어난 성능을 보여줬어요.

0.9B 파라미터로 빠른 추론 속도를 제공하며, vLLM, SGLang, Ollama를 통해 배포가 가능하여 고성능 서비스를 위한 최적의 솔루션이에요.

##OCR##GLM##문서인식##오픈소스##AI모델

매일 핵심 AI 소식을 한국어로, 빠르게