AI-Toolkit에서 영상 클립을 활용해 개인 목소리를 LoRA로 학습하는 방법은 알려져 있지만, 오디오 파일만으로도 학습이 가능한지 문의하는 글이 올라왔어요. AI-Toolkit 뿐만 아니라 다른 학습 도구에서도 오디오 파일(wav, mp3, opus, ogg 등)을 활용해 LoRA 모델을 학습할 수 있는지 궁금하다는 내용입니다. 오디오 파일만 있는 클립과 영상, 이미지 클립이 혼합된 데이터셋으로 학습하는 방법에 대한 질문입니다.