Numind가 Qwen3.5-4B 기반의 4B 모델 NuExtract3을 Apache-2.0 라이선스로 공개했어요. PDF, 스크린샷, 테이블, 영수증 등 시각적으로 구조화된 문서에서 정보 추출을 목표로 합니다.
NuExtract3은 문서 이미지를 Markdown으로 변환하거나, JSON 템플릿을 사용하여 구조화된 데이터를 추출하는 데 사용될 수 있으며, 8xH100 노드에서 3일간 학습하여 긴 문서에서도 비교적 잘 작동하도록 설계됐어요.
자가 호스팅이 용이하며, 다양한 양자화 방식(GPTQ, W8A8, FP8, Q4, Q6...)을 지원하여 4GB VRAM으로도 실행 가능하며