GLM-V 아키텍처 기반의 다중 모드 OCR 모델 GLM-OCR이 공개되었어요. 복잡한 문서 이해를 위해 Multi-Token Prediction 손실 함수와 강화 학습을 적용했어요.
GLM-OCR은 OmniDocBench V1.5에서 94.62의 높은 점수를 기록하며 문서 이해 벤치마크에서 뛰어난 성능을 보여줬어요.
0.9B 파라미터로 빠른 추론 속도를 제공하며, vLLM, SGLang, Ollama를 통해 배포가 가능하여 고성능 서비스를 위한 최적의 솔루션이에요.