sovits声音克隆项目实战

作用:拟合声线,只在预训练模型的基础上只学习一个人的声音特质
原始项目:
https://github.com/svc-develop-team/so-vits-svc
fork项目:更方便地使用原始项目
https://github.com/voicepaw/so-vits-svc-fork

所有的 python 项目都应该这么做:

1、使用 conda 创建隔离环境
2、要搞深度学习AI,必须要安装深度学习框架 --> PyTorch
单独安装框架:
Nvidia 官网下载cuda 11.8:
https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_network
到 PyTorch 官网复制下载命令:
https://pytorch.org/get-started/locally/

项目的原理GAN(对抗生成网络)

G负责生成,D负责辨别,G生成的内容如果骗过了D,那么G就ok了,同理,如果D把G全部的都认出来了,那D就又ok了,如此循环。

数据处理步骤:

1、音频来源
	下载音频 2t58.com
	注意版权
2、分离音频和bgm
	uvr5:https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.5.0
3、(Optional)人声降噪处理
4、分离切割
	audio slicer:https://github.com/flutydeer/audio-slicer
5、人工筛选一下

训练参数:

steps:就是代码遍历一次训练数据所需要的次数,之后的间隔都是以这个步数为基础的
"log_interval":打印的间隔
 "eval_interval":评估模型的间隔(也可以理解为保存模型checkpoints的间隔)
"epochs":训练轮数,代码要遍历多少次训练数据,和steps区分开来
"batch_size":批次大小
"learning_rate":学习率