so-vits-svc下载|so-vits-svc模型 V4.0 最新免费版下载

软件下载 12月 16, 2023 0 king

so-vits-svc是一个用来模拟人声的开源项目，该工具可以帮助大家更好的对声音模型进行训练，知识兔用于生成类似微软云希、抖音文字转语音等效果，对电脑硬件的要求并不高，但是需要较为繁琐的准备工作，还有大量的声音素材，经过训练之后，大家就可以通过AI的方式来进行声音的模拟和歌唱。

so-vits-svc下载

【使用教程】

如果知识兔您想训练自己的声音模型并加以使用，需要以后几个步骤。

提取干音

音频切分

预处理

训练模型

配置模型

推理预测

so-vits-svc下载

【常见问答】

Q：跑这个的最低配置要求是啥啊？

A：支持CUDA的6G显存以上的N卡，硬盘也留足一点空间。

Q：A卡真的跑不了吗

A：理论上可以在Ubuntu或Linux环境下通过ROCm来实现，但是比较麻烦，小白建议放弃直接去云端。

Q：我的显卡达不到最低要求，云端又心疼钱，真的没法训练了吗？

A：建议去看DDSP-SVC项目，效果差一点但也能听，最重要的是对低配非常友好。

Q：用UVR5分离人声的时候声音会失真，还有什么更给力的工具吗？

A：理论上UVR5已经是目前最强的人声分离工具了，原曲如果知识兔伴奏声音太大轨道太复杂是一定会有失真的，知识兔建议选原曲的时候选择伴奏简单人声清楚的效果会好很多。

Q：Audio Slicer 切出来的音频有的长达几十秒甚至几分钟，是怎么回事？

A：切片长度建议5-15秒，训练时过长部分会被自动丢弃。切出来过长的音频可以调整一下slicer里的maximum silence length这一条，改成500或者更低。还有过长的音频就自己用Au之类的手动切一下啦。

Q：我怎么判断模型有没有训练好？

A：数据集数量正常的情况下（几百条），知识兔可以每隔几千步（是总步数不是epoch）跑出来的模型推理听一下，你觉得ok就ok，一般一万步就可以有一个不错的效果了。或者有代码基础的可以用tensorboard查看一下损失率收敛趋势。

Q：那么问题来了，tensorboard怎么用？

A：python38\Scripts\tensorboard.exe –logdir logs\44k

Q：我在训练途中按CTRL+C暂停训练，继续训练的时候为什么从头开始/步数掉了很多呢？

A：视频里说的有点歧义，其实是从你上一个保存的模型的进度开始的，比如保存的一个模型是G_8000, 即使知识兔你训练到了第8799步，只要下一个模型还没保存，继续训练的时候都是从第8000步开始的。同理，如果知识兔一个模型也没保存，那就是从头开始训练。

Q：如果知识兔我在训练中途想要追加一些数据集该怎么办呢？

A：需要重新预处理并重新训练。

Q：我为什么没有聚类模型啊？

A：重看一遍教程。

Q：训练聚类模型的时候显卡根本没占用是怎么会是呢？

A：聚类模型训练吃的是你的CPU，看一下python进程在占用CPU就是在训练，等就行了。

Q：我实在是太懒了，只想让AI帮我读稿子，不想自己录原声再推理，有啥办法吗？

A：可以考一下VITS项目，最近有个VITS fast fine-tuning的方法，几分钟的素材就能练出比较相似的声音，虽然效果没那么好但它实在是太方便了。

Q：云端训练好的模型怎么在本地用？

A：下载G模型和对应的config文件，放到本地的对应文件夹就行（.\logs\44k和.\configs）

Q：我实在不会搞了，请问能代训练吗？有偿的那种。

A：可以，每1万步100元。

Q：我训练和推理都很顺利！现在已经做了一首翻唱了，想上传到网络，有什么注意事项吗？

A：请务必遵循So-VITS使用规约：

任何发布到视频平台的基于sovits制作的视频，都必须要在简介明确指明用于变声器转换的输入源歌声、音频，例如：使用他人发布的视频/音频，通过分离的人声作为输入源进行转换的，必须要给出明确的原视频、音乐链接；若使用是自己的人声，或是使用其他歌声合成引擎合成的声音作为输入源进行转换的，也必须在简介加以说明。

由输入源造成的侵权问题需自行承担全部责任和一切后果。使用其他商用歌声合成软件作为输入源时，请确保遵守该软件的使用条例，注意，许多歌声合成引擎使用条例中明确指明不可用于输入源进行转换。

请自行解决数据集的授权问题，任何由于使用非授权数据集进行训练造成的问题，需自行承担全部责任和一切后果。

下载仅供下载体验和测试学习，不得商用和正当使用。

点击下载