이 글은 실시간 음성 텍스트 변환 시스템 구축 시 지연 시간을 200ms 미만으로 유지하는 데 필요한 아키텍처 가이드입니다.
WebSocket은 대부분의 파이프라인에 적합하지만, 네트워크 패킷 손실 시 head-of-line blocking 현상이 발생할 수 있으며, WebRTC는 UDP를 사용해 손실에 강하지만 더 복잡합니다.
Scribe v2 Realtime을 기반으로 음성 데이터 전송, 부분 텍스트 생성, 음성 활동 감지, 오디오 형식 등을 다루며, 150ms의 모델 지연 시간으로 90개 이상의 언어를 지원합니다.