Pulse · AI 뉴스

NVIDIA Nemotron 3.5 ASR 모델, 언어·도메인·억양에 맞춰 미세 조정하는 방법

Hugging Face · 2026-06-04

NVIDIA가 40개 언어·지역을 지원하는 멀티링구얼 스트리밍 ASR 모델 Nemotron 3.5를 공개했어요. 이전 모델인 Nemotron 3 ASR보다 성능이 향상됐어요.

Cache-Aware FastConformer-RNNT 아키텍처를 사용해 오디오를 스트리밍하며, 저지연성과 높은 정확도를 동시에 제공해요.

Hugging Face에서 오픈 웨이트로 제공되며, API 의존성 없이 모델을 검사하고 미세 조정하고 배포할 수 있어요. 사용자는 자신의 언어, 도메인, 억양에 맞춰 모델을 미세 조정할 수 있어요.

기존 멀티링구얼 음성 인식 모델은 여러 모델 통합, 스트리밍과 정확도 간의 균형, 후처리 파이프라인, 언어 정보 필요 등의 문제를 안고 있었어요.

Nemotron 3.5 ASR는 하나의 모델로 40개 언어·지역을 지원하며, 캐시 기반 FastConformer 인코더를 사용하여 오디오를 한 번만 처리하여 지연 시간을 줄였어요.

모델은 문장 부호와 대소문자를 자동으로 처리하며, 입력 언어를 지정하거나 자동 감지를 사용할 수 있어요.

##ASR##Nemotron##NVIDIA##음성인식##멀티링구얼

매일 핵심 AI 소식을 한국어로, 빠르게