sovits声音克隆项目实战

2023-08-29 tagAI, tagPage Comments

作用：拟合声线，只在预训练模型的基础上只学习一个人的声音特质
原始项目：
https://github.com/svc-develop-team/so-vits-svc
fork项目：更方便地使用原始项目
https://github.com/voicepaw/so-vits-svc-fork

所有的 python 项目都应该这么做：

1、使用 conda 创建隔离环境
2、要搞深度学习AI，必须要安装深度学习框架 --> PyTorch
单独安装框架：
Nvidia 官网下载cuda 11.8:
https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_network
到 PyTorch 官网复制下载命令：
https://pytorch.org/get-started/locally/

项目的原理GAN（对抗生成网络）

G负责生成，D负责辨别，G生成的内容如果骗过了D，那么G就ok了，同理，如果D把G全部的都认出来了，那D就又ok了，如此循环。

数据处理步骤：

1、音频来源
	下载音频 2t58.com
	注意版权
2、分离音频和bgm
	uvr5：https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.5.0
3、（Optional）人声降噪处理
4、分离切割
	audio slicer：https://github.com/flutydeer/audio-slicer
5、人工筛选一下

训练参数：

steps：就是代码遍历一次训练数据所需要的次数，之后的间隔都是以这个步数为基础的
"log_interval"：打印的间隔
 "eval_interval"：评估模型的间隔（也可以理解为保存模型checkpoints的间隔）
"epochs"：训练轮数，代码要遍历多少次训练数据，和steps区分开来
"batch_size"：批次大小
"learning_rate"：学习率

本文链接： http://hanbaba.pandub.cn/2023/08/30/sovits项目/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

HanbabaGraduate School Student at SWJTU

Panda-keeper Wanna-be