ElevenLabs는 음성 AI 처리의 속도 제한이 요청 수보다는 동시성을 기준으로 한다고 밝혔습니다.
속도 제한에 도달하면 트래픽이 즉시 거부되는 것이 아니라 우선순위 큐에 들어가 최대 50ms의 지연이 발생합니다.
WebSocket을 사용하면 활성 생성만 제한에 포함되므로 효과적인 용량을 크게 늘릴 수 있습니다.
멀티 테넌트 시스템에서는 각 테넌트별로 버킷을 사용하고, 공정한 큐잉, 예약 헤드룸, 키를 이용한 샤딩을 통해 격리를 제공해야 합니다.
현재 동시 요청 수와 최대 동시 요청 수를 알려주는 헤더를 통해 속도 제한 상태를 확인할 수 있습니다.
클라이언트 측에서 동시성 제한을 관리하기 위해 경계 동시성 풀, 우아한 429 처리, 멀티 테넌트 공정 패턴, 토큰 버킷, 누수 버킷 등의 전략을 사용할 수 있습니다.