本帖最后由 圣卫幻梦 于 2024-12-24 18:42 编辑
大家好这里是梦梦 这里给大家带来一些ai歌曲的教程
本次使用的软件为so-vits-svc,是基于VITS的开源项目,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型
配置建议是N卡20系以上且显存大于等于6G(8G就能玩的很不错了),否则的话只能使用CPU硬推理了哦(AMD NO!)
一.素材的准备
1.ai语音最重要的就是让ai学会你想要的角色的音色,所以素材的准备是非常重要的,语音文件可以通过非常多的方式来寻找,其中最简单的方式就是解包,当然这可能对于某些朋友来说是比较难的,所以,你甚至可以直接打开录音设备来进行收集素材。这里我以及准备好了一份素材炽炎雏龙——斯莫得的中,日,韩配音全语音包,如果坛友想准备其他角色的音色的话可以只准备其中一种,只不过训练素材越来,最后出来的结果就越丰富,也越接近原音色。解包这一部分网上相应教程很多,这里我就不涉及了,训练的原声素材至少需要10分钟左右。
2.在准备好原语音后,就可以进入第二步了。处理收集的素材,因为初步获得的素材,会有杂音,电音,混响,和声等等,所以需要我们进一步处理,这边我推荐使用的是UVR5这一款软件,当然使用其他的音频处理软件比如AU之类的也是可以的哈。或者是使用花儿大佬的TTS整合包来进行一步到位的处理(更简单)
2.1打开花儿大佬的启动器后,点击启动后稍等一会会打开新的界面UVR5的webui界面
我们先选择model_bs_roformer_ep_317_sdr_12.9755这个模型来分离伴奏和干音
在下方选择需要处理的音频,导出格式为flac,处理的音频文件命名改为英文后,在进行以下步骤
处理文件夹推荐不变,或者更改为自己容易找到的地方
处理完成后会输出信息提示
若更改文件保存地址,那文件保存地址就在整合包的GPT-SoVITS-v2-240821\output\uvr5_opt目录下
处理完后会有两个文件vocals和instrumental,而vocals就是我们分离出来的人声了
更换为onnx_dereverb_By_FoxJoy模型,处理刚才分离的人声,如果这一步太慢了的朋友可以选择跳过,对素材最终影响结果不大
(真的非常慢,我4060ti16g需要10分钟)
处理完后又会有两个文件_main_vocal和_others,我们只需要保留_main_vocal这个文件即可
再次更换为VR模型,如果素材混响不算严重,推荐选择第一个VR模型,如果很严重酌情使用第二或者第三个
最后在VR模型处理完成后,会再次多出两个文件开头为vocal和instrument,我们只需要保留vocal文件就完成了
到此我们就得到了干净的人声素材了
2.2分割语音我们会到Audio-Slicer,或者接着使用之前的整合包
先点击关闭UVR5—webui释放一下被占用的显存,将刚才最后一步得到的vocal的文件路径放入切割工具中,若未更改目录则为 output\uvr5_opt(记得删除不需要的文件)
然后我们去output/slicer_opt文件夹下寻找我们我们分割好的文件
会发现有很多以及被分割好的小文件(分割后的文件应该是英文命名,若不是请记得更改),一般来说文件分割出来应该都是15秒之内 的,可以稍微查看一下是否有很大内存的文件,如果有大概率是没有分割成功,一般是选择删除或者将这个文件单独在进行分割一次
二.训练
1.然后我们就可以关闭花儿大佬的tts整合包,打开我们的so-vits-svc,切换到我们的训练页面
将训练集(也就是刚才分割好的语音片段)放入so-vits-svc\dataset_raw目录下
点击识别训练集,将训练使用的编码更改为[color=var(--body-text-color)]vec768l12,训练使用的f0预测器更改为[color=var(--body-text-color)]rmvpe
勾选使用浅扩散模型,然后点击数据预处理
当说话人那里出现了本次训练的目标后,那就完成了训练前的大部分操作,这里模型保存数量我推荐填写为5-10左右,方便用于反复测 试模型训练效果,其余参数保存不变,点击写入配置文件后,等待输出信息的提示
点击从头训练,(之后打开如果需要接着训练只需要点击继续上一次训练内容即可)不要关闭训练打开的命令行
三.推理
这里选择好之前炼制好的模型,确认无误后下滑点击加载模型
在框中放入想要ai角色所演唱的歌曲点击转换即可,(演唱输出也需要经历素材收集的步骤来去除伴奏和人声哦)
成果展示
基本上来说,以上步骤以及足够让新人体验一下ai翻唱了,具体的参数调整,训练调整,很多很多不刚需的额外操作我会放到之后的进阶帖子中
这里是梦梦期待与你的下次详见
|