圣卫幻梦 发表于 昨天 18:24

【冬宫学府】SO-VITS-SVC喂饭级教程

本帖最后由 圣卫幻梦 于 2024-12-24 18:42 编辑

大家好这里是梦梦这里给大家带来一些ai歌曲的教程
         本次使用的软件为so-vits-svc,是基于VITS的开源项目,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型
配置建议是N卡20系以上且显存大于等于6G(8G就能玩的很不错了),否则的话只能使用CPU硬推理了哦(AMD NO!)

一.素材的准备
   1.ai语音最重要的就是让ai学会你想要的角色的音色,所以素材的准备是非常重要的,语音文件可以通过非常多的方式来寻找,其中最简单的方式就是解包,当然这可能对于某些朋友来说是比较难的,所以,你甚至可以直接打开录音设备来进行收集素材。这里我以及准备好了一份素材炽炎雏龙——斯莫得的中,日,韩配音全语音包,如果坛友想准备其他角色的音色的话可以只准备其中一种,只不过训练素材越来,最后出来的结果就越丰富,也越接近原音色。解包这一部分网上相应教程很多,这里我就不涉及了,训练的原声素材至少需要10分钟左右。

    2.在准备好原语音后,就可以进入第二步了。处理收集的素材,因为初步获得的素材,会有杂音,电音,混响,和声等等,所以需要我们进一步处理,这边我推荐使用的是UVR5这一款软件,当然使用其他的音频处理软件比如AU之类的也是可以的哈。或者是使用花儿大佬的TTS整合包来进行一步到位的处理(更简单)
    2.1打开花儿大佬的启动器后,点击启动后稍等一会会打开新的界面UVR5的webui界面

      
      我们先选择model_bs_roformer_ep_317_sdr_12.9755这个模型来分离伴奏和干音
      在下方选择需要处理的音频,导出格式为flac,处理的音频文件命名改为英文后,在进行以下步骤
      处理文件夹推荐不变,或者更改为自己容易找到的地方
      处理完成后会输出信息提示
      若更改文件保存地址,那文件保存地址就在整合包的GPT-SoVITS-v2-240821\output\uvr5_opt目录下


       处理完后会有两个文件vocals和instrumental,而vocals就是我们分离出来的人声了
       更换为onnx_dereverb_By_FoxJoy模型,处理刚才分离的人声,如果这一步太慢了的朋友可以选择跳过,对素材最终影响结果不大
(真的非常慢,我4060ti16g需要10分钟)

      处理完后又会有两个文件_main_vocal和_others,我们只需要保留_main_vocal这个文件即可
      再次更换为VR模型,如果素材混响不算严重,推荐选择第一个VR模型,如果很严重酌情使用第二或者第三个


      最后在VR模型处理完成后,会再次多出两个文件开头为vocal和instrument,我们只需要保留vocal文件就完成了
      到此我们就得到了干净的人声素材了

   2.2分割语音我们会到Audio-Slicer,或者接着使用之前的整合包
      先点击关闭UVR5—webui释放一下被占用的显存,将刚才最后一步得到的vocal的文件路径放入切割工具中,若未更改目录则为                  output\uvr5_opt(记得删除不需要的文件)


      然后我们去output/slicer_opt文件夹下寻找我们我们分割好的文件
      会发现有很多以及被分割好的小文件(分割后的文件应该是英文命名,若不是请记得更改),一般来说文件分割出来应该都是15秒之内      的,可以稍微查看一下是否有很大内存的文件,如果有大概率是没有分割成功,一般是选择删除或者将这个文件单独在进行分割一次

二.训练
   1.然后我们就可以关闭花儿大佬的tts整合包,打开我们的so-vits-svc,切换到我们的训练页面


    将训练集(也就是刚才分割好的语音片段)放入so-vits-svc\dataset_raw目录下


    点击识别训练集,将训练使用的编码更改为vec768l12,训练使用的f0预测器更改为rmvpe

    勾选使用浅扩散模型,然后点击数据预处理经过漫长的等待

      当说话人那里出现了本次训练的目标后,那就完成了训练前的大部分操作,这里模型保存数量我推荐填写为5-10左右,方便用于反复测      试模型训练效果,其余参数保存不变,点击写入配置文件后,等待输出信息的提示

点击从头训练,(之后打开如果需要接着训练只需要点击继续上一次训练内容即可)不要关闭训练打开的命令行

三.推理    这里选择好之前炼制好的模型,确认无误后下滑点击加载模型


   在框中放入想要ai角色所演唱的歌曲点击转换即可,(演唱输出也需要经历素材收集的步骤来去除伴奏和人声哦)


成果展示
https://www.bilibili.com/video/BV1MFqQYxE1h/?share_source=copy_web&vd_source=bbd2e6a9eb67372af116470a2df56025
      基本上来说,以上步骤以及足够让新人体验一下ai翻唱了,具体的参数调整,训练调整,很多很多不刚需的额外操作我会放到之后的进阶帖子中

https://img.gamemale.com/album/202402/26/174738etdyrrgpw2qgwxf0.png
这里是梦梦期待与你的下次详见




贰狼Awoo 发表于 昨天 18:37

马上收藏!,太详细了。。妈呀
我拿狼音给自己唱歌的梦想不远了

崽仔狼 发表于 昨天 18:39

居然是用自己的音色生成AI歌曲嘛,那可太有意思惹,谢谢楼楼!

AncL 发表于 昨天 18:39

{:4_100:}我建议冬宫学府这种活动就应该大办特办 有点像来gm上大学了是可以说的吗

凯诺斯 发表于 昨天 18:45

好详细的教程,自己也能弄一些歌出来了:loveliness:

饥渴难耐的G 发表于 昨天 18:45

可以的,对一些小作者而言很棒,我怀疑那个铠甲勇士6的op就是用这个写的

咸鱼鱼 发表于 昨天 18:57

AI唱歌吗,感觉可以AI训练自己喜欢的人然后假装恋爱

娱乐法师火布偶 发表于 昨天 19:07

各种AI孙燕姿的歌曲翻唱应该就是用了类似的工具进行训练的吧

毛茸茸兽兽 发表于 昨天 20:30

吼吼~一些剧情游戏也能搭配上这个变成有声版了哇~

一般路人泠泠 发表于 昨天 20:57

好东西 我猛猛收藏口牙

you9632587 发表于 昨天 22:04

楼主的教学写的真是很详细了啊,不过我这渣电脑就不指望他干这么复杂的活了

phillipé 发表于 5 小时前

狠狠收藏了,很实用的样子,我也去试试能不能自己搞一首出来惹:loveliness:
页: [1]
查看完整版本: 【冬宫学府】SO-VITS-SVC喂饭级教程