【冬宫学府】SO-VITS-SVC喂饭级教程

圣卫幻梦 发表于昨天 18:24

本帖最后由圣卫幻梦于 2024-12-24 18:42 编辑

大家好这里是梦梦这里给大家带来一些ai歌曲的教程
      本次使用的软件为so-vits-svc，是基于VITS的开源项目，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种结合变分推理（variational inference）、标准化流（normalizing flows）和对抗训练的高表现力语音合成模型
配置建议是N卡20系以上且显存大于等于6G（8G就能玩的很不错了），否则的话只能使用CPU硬推理了哦（AMD NO！）

一.素材的准备
1.ai语音最重要的就是让ai学会你想要的角色的音色，所以素材的准备是非常重要的，语音文件可以通过非常多的方式来寻找，其中最简单的方式就是解包，当然这可能对于某些朋友来说是比较难的，所以，你甚至可以直接打开录音设备来进行收集素材。这里我以及准备好了一份素材炽炎雏龙——斯莫得的中，日，韩配音全语音包，如果坛友想准备其他角色的音色的话可以只准备其中一种，只不过训练素材越来，最后出来的结果就越丰富，也越接近原音色。解包这一部分网上相应教程很多，这里我就不涉及了，训练的原声素材至少需要10分钟左右。

2.在准备好原语音后，就可以进入第二步了。处理收集的素材，因为初步获得的素材，会有杂音，电音，混响，和声等等，所以需要我们进一步处理，这边我推荐使用的是UVR5这一款软件，当然使用其他的音频处理软件比如AU之类的也是可以的哈。或者是使用花儿大佬的TTS整合包来进行一步到位的处理（更简单）
2.1打开花儿大佬的启动器后,点击启动后稍等一会会打开新的界面UVR5的webui界面


   我们先选择model_bs_roformer_ep_317_sdr_12.9755这个模型来分离伴奏和干音
   在下方选择需要处理的音频，导出格式为flac，处理的音频文件命名改为英文后，在进行以下步骤
   处理文件夹推荐不变，或者更改为自己容易找到的地方
   处理完成后会输出信息提示
   若更改文件保存地址，那文件保存地址就在整合包的GPT-SoVITS-v2-240821\output\uvr5_opt目录下

   处理完后会有两个文件vocals和instrumental，而vocals就是我们分离出来的人声了
   更换为onnx_dereverb_By_FoxJoy模型，处理刚才分离的人声，如果这一步太慢了的朋友可以选择跳过，对素材最终影响结果不大
（真的非常慢，我4060ti16g需要10分钟）

   处理完后又会有两个文件_main_vocal和_others，我们只需要保留_main_vocal这个文件即可
   再次更换为VR模型，如果素材混响不算严重，推荐选择第一个VR模型，如果很严重酌情使用第二或者第三个

   最后在VR模型处理完成后，会再次多出两个文件开头为vocal和instrument，我们只需要保留vocal文件就完成了
   到此我们就得到了干净的人声素材了

2.2分割语音我们会到Audio-Slicer，或者接着使用之前的整合包
   先点击关闭UVR5—webui释放一下被占用的显存，将刚才最后一步得到的vocal的文件路径放入切割工具中，若未更改目录则为                output\uvr5_opt（记得删除不需要的文件）

   然后我们去output/slicer_opt文件夹下寻找我们我们分割好的文件
   会发现有很多以及被分割好的小文件（分割后的文件应该是英文命名，若不是请记得更改），一般来说文件分割出来应该都是15秒之内    的，可以稍微查看一下是否有很大内存的文件，如果有大概率是没有分割成功，一般是选择删除或者将这个文件单独在进行分割一次

二.训练
1.然后我们就可以关闭花儿大佬的tts整合包，打开我们的so-vits-svc，切换到我们的训练页面

将训练集（也就是刚才分割好的语音片段）放入so-vits-svc\dataset_raw目录下

点击识别训练集，将训练使用的编码更改为vec768l12，训练使用的f0预测器更改为rmvpe

勾选使用浅扩散模型，然后点击数据预处理经过漫长的等待

   当说话人那里出现了本次训练的目标后，那就完成了训练前的大部分操作，这里模型保存数量我推荐填写为5-10左右，方便用于反复测    试模型训练效果，其余参数保存不变，点击写入配置文件后，等待输出信息的提示

点击从头训练，（之后打开如果需要接着训练只需要点击继续上一次训练内容即可）不要关闭训练打开的命令行

三.推理这里选择好之前炼制好的模型，确认无误后下滑点击加载模型

在框中放入想要ai角色所演唱的歌曲点击转换即可，（演唱输出也需要经历素材收集的步骤来去除伴奏和人声哦）

成果展示
https://www.bilibili.com/video/BV1MFqQYxE1h/?share_source=copy_web&vd_source=bbd2e6a9eb67372af116470a2df56025
   基本上来说，以上步骤以及足够让新人体验一下ai翻唱了，具体的参数调整，训练调整，很多很多不刚需的额外操作我会放到之后的进阶帖子中

https://img.gamemale.com/album/202402/26/174738etdyrrgpw2qgwxf0.png
这里是梦梦期待与你的下次详见

贰狼Awoo 发表于昨天 18:37

马上收藏！，太详细了。。妈呀
我拿狼音给自己唱歌的梦想不远了

崽仔狼 发表于昨天 18:39

居然是用自己的音色生成AI歌曲嘛，那可太有意思惹，谢谢楼楼！

AncL 发表于昨天 18:39

{:4_100:}我建议冬宫学府这种活动就应该大办特办有点像来gm上大学了是可以说的吗

凯诺斯 发表于昨天 18:45

好详细的教程，自己也能弄一些歌出来了:loveliness:

饥渴难耐的G 发表于昨天 18:45

可以的，对一些小作者而言很棒，我怀疑那个铠甲勇士6的op就是用这个写的

咸鱼鱼 发表于昨天 18:57

AI唱歌吗，感觉可以AI训练自己喜欢的人然后假装恋爱

娱乐法师火布偶 发表于昨天 19:07

各种AI孙燕姿的歌曲翻唱应该就是用了类似的工具进行训练的吧

毛茸茸兽兽 发表于昨天 20:30

吼吼～一些剧情游戏也能搭配上这个变成有声版了哇～

一般路人泠泠 发表于昨天 20:57

好东西我猛猛收藏口牙

you9632587 发表于昨天 22:04

楼主的教学写的真是很详细了啊，不过我这渣电脑就不指望他干这么复杂的活了

phillipé 发表于 5 小时前

狠狠收藏了，很实用的样子，我也去试试能不能自己搞一首出来惹:loveliness:

页: [1]

GameMale's Archiver

【冬宫学府】SO-VITS-SVC喂饭级教程