사용자가 한국어 다중화자 구분에 어려움을 느껴 Whisper, Clova 등을 사용해봤다고 질문했습니다. 오디오 분리 후 다중화자 구분을 위한 모델 추천을 요청하며, 콘텐츠 수집 > 오디오 분리 > 오디오 프로세스를 예상하고 있습니다. 로컬/클라우드/상용 모델 중 추천 모델에 대한 답변을 기다리고 있습니다.