Pulse · AI 뉴스

NVIDIA, 문서·오디오·비디오 분석용 멀티모달 AI 모델 'Nemotron 3 Nano Omni' 공개

Hugging Face · 2026-04-29

NVIDIA가 문서 분석, 이미지 추론, 음성 인식, 오디오·비디오 이해 등 다양한 작업을 지원하는 멀티모달 AI 모델 'Nemotron 3 Nano Omni'를 발표했습니다. 이 모델은 기존 Nemotron 모델 라인을 확장하여 텍스트, 이미지, 비디오, 오디오를 통합적으로 이해할 수 있도록 설계됐습니다.

Nemotron 3 Nano Omni는 MMlongbench-Doc, OCRBenchV2, WorldSense, DailyOmni 등 다양한 벤치마크에서 최고 수준의 정확도를 달성했으며, 특히 VoiceBench에서 뛰어난 음성 이해 성능을 보였습니다.

이 모델은 Mamba-Transformer Mixture-of-Experts 백본과 C-RADIOv4-H 비전 인코더, Parakeet-TDT-0.6B-v2 오디오 인코더를 결합하여 시각적 디테일을 보존하고, 음성 이해 능력을 향상시키며, 긴 멀티모달 컨텍스트를 처리할 수 있습니다.

Nemotron 3 Nano Omni는 기존 모델 대비 최대 9배 더 높은 처리량과 2.9배 더 빠른 추론 속도를 제공하며, Hugging Face에서 BF16, FP8, NVFP4 체크포인트를 다운로드할 수 있습니다.

NVIDIA는 이 모델이 100페이지 이상의 복잡한 문서 분석, 화면 녹화와 음성 해설 이해, GUI 환경에서의 에이전트 활용 등 다양한 워크로드에 적합하다고 밝혔습니다.

##NVIDIA##Nemotron##AI모델##멀티모달##문서분석
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기