엔비디아는 데이터 부족 문제를 해결하기 위해 합성 데이터를 활용한 다국어 OCR 모델 'Nemotron OCR v2'를 공개했습니다. 이 모델은 12만 개의 합성 이미지로 6개 언어의 정확도를 향상시켰습니다.
기존 모델보다 빠른 속도를 위해 공유된 감지 백본을 사용했으며, 이를 통해 단일 A100 GPU에서 34.7페이지/초의 속도를 달성했습니다.
Nemotron OCR v2는 163개 언어 하위 집합을 지원하는 mOSCAR 텍스트를 활용하여 다양한 언어의 폰트와 텍스트를 렌더링합니다.
모델은 공개 데이터셋 nvidia/OCR-Synthetic-Multilingual-v1과 모델 nvidia/nemotron-ocr-v2로 제공되며, 브라우저 데모를 통해 직접 사용해 볼 수 있습니다.
이 모델은 단어, 줄, 단락 수준에서 픽셀 정확도의 바운딩 박스 및 읽기 순서 정보를 제공하며, 다양한 언어에 적용 가능한 범용적인 합성 데이터 파이프라인을 구축했습니다.