WhisperPipe는 대규모 트랜스포머 모델인 Whisper를 활용한 실시간 음성 인식 시스템에서 정확도와 효율성 간의 균형을 맞추는 새로운 아키텍처예요.
하이브리드 VAD 파이프라인, 동적 버퍼링, 적응형 처리 전략을 통해 기존 Whisper 구현 방식보다 GPU 메모리 사용량과 GPU 활용률을 크게 줄였어요.
실험 결과, WhisperPipe는 89ms의 낮은 지연 시간과 경쟁력 있는 정확도를 유지하며, 150분간의 지속적인 운영에서도 안정적인 메모리 사용량을 보여줬어요.