Pulse · AI 뉴스

NuExtract3 공개: Markdown, OCR, 구조 추출을 위한 오픈 가중 4B VLM (자가 호스팅 가능)

NuExtract3 · 2026-05-25

Numind가 Apache-2.0 라이선스로 4B 모델 NuExtract3을 공개했어요. PDF, 스크린샷, 테이블, 영수증 등 시각적으로 구조화된 문서에서 정보 추출을 목표로 합니다.

문서 이미지를 Markdown으로 변환하거나, JSON 템플릿을 사용하여 구조화된 데이터를 추출하는 데 활용할 수 있어요.

8xH100 노드에서 3일간 훈련하여 장문 문서에서도 비교적 잘 작동하며, 최소 4GB VRAM으로 자가 호스팅이 가능해요.

vLLM, SGLang, llama.cpp를 주로 사용했으며

##모델출시##오픈소스##문서추출
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기