Pulse · AI 뉴스

noisekit: STT 벤치마킹용 현실적인 음성 데이터셋 생성 CLI 출시

noisekit · 2026-05-27

noisekit은 실제 통화 환경의 잡음을 모방하여 STT 모델 벤치마킹에 활용할 수 있는 데이터셋 생성 CLI입니다.

G.711 인코딩된 잡음 환경을 시뮬레이션하여 실제 생산 환경과 유사한 데이터셋을 만들 수 있어 STT 모델 성능 평가 정확도를 높입니다.

PESQ, SNR, NISQA 점수와 함께 메타데이터를 제공하여 데이터 품질과 WER 간 상관관계 분석이 가능하며, GitHub에서 MIT 라이선스로 제공됩니다.

##STT##ASR##noisekit##데이터셋
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기