【教程】手把手教你如何快速入手,一键获得属于自己的AI声音


3楼猫 发布时间:2024-05-14 10:00:38 作者:wo老吉 Language

随着现在AI技术的发展,现在不仅有ChatGPT,国内各种大语言模型更加数不胜数,而早在1月份出现的一个GPT-SoVITS项目,已经关注了很久,不过之前没有电脑麦克风,只能眼巴巴看着,也训练了一些其他人的音频,如果有需要的可以留言。

前言

TTS(Text-To-Speech)这是一种文字转语音的语音合成。GPT-SoVITS作为一个开源的TTS项目,只需要1分钟的音频文件就可以克隆自己的声音,并且支持将汉语、英语、日语三种语言的文本转为克隆声音,让你成为一个赛博多语种人才。截止到目前为止,该项目总共获得了2w多收藏,增长趋势如下图所示。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第0张

趋势图

GPT-SoVITS项目地址:RVC-Boss/GPT-SoVITS: 1 min voicedata can also be used to train a good TTS model! (few shot voice cloning)(github.com)

目前的功能有哪些:

1、 可以控制并输出参考音频类似的情感、音色、语速

2、 可以进行语音微调训练,也直接推理输出音频

3、 可以多语种生成,目前支持中日英单或者混合模式

需要设备很简单:一台搭载独立显卡的电脑以及一个输入设备麦克风。最好是N卡,独立麦克风录制效果比较好。个人演示的是乌龟海岸冰豹拓驰的麦克风,声音录音比较清晰,不会有其他杂音,可以根据自己手动的设备进行录音即可。当然如果没有独立麦克风的话,也可以头戴式耳机或者用手机进行录制,这样子就会麻烦一点,因为会有其他一些杂音什么的,需要前期对声音进行处理才可以制作成模型,后面会有演示。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第1张

独立麦克风

准备录制好声音,这里用Windows平台作为演示,直接打开Windows自带的录音机

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第2张

自带录音功能

然后在右边选择设置中,设置录制的格式为WAV(无损),质量可以选择高或者最佳。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

格式设置

然后就可以开启录制,正常说话,最好是分别录制不超过10s的短句,大概15-20条。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

记住文件所在位置

记住这个位置,就是我们接下来要使用的参考音频素材以及位置的输入。

目前有整合包和网页版,这里只介绍整合包,下面是详细的教程

可以在上面项目链接直接下载GPT-SoVITS,也可以在百度云盘中下载,建议下载最新版的0306,下载完后解压即可用:https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi,密码是mqpi,

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

直接打开bat,不用管理员模式

然后我们打开文件中go-webui.bat,会弹出一个黑色窗口,然后直接打开网页。注意这个窗口是后台控制,不能关闭,关闭的话网页也无法加载。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

启动后的界面

启动之后,能看到这样的一个网页窗口,如果你是没有独立麦克风,那么声音可能会有些嘈杂以及长语句的话,可以进行切割一下声音,通过对声音的降噪处理以达到纯净声音,才可以进行后续的使用,具体参考上图所示。我这里演示的短句,即切割后的部分,直接在右边切割后的段落进行输出,开启离线批量ASR,完成输出后,就可以得到一个list。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

一条条进行设置

找到刚刚输出的list文件所在位置,就可以在对标注工具中进行开启校准,可以对我们说话的语句以及对照文本进行校准,不准确的部分需要手动调整,文本的多少取决于你输入的参考音频多少。一般是2-3页,可以通过一个个校准之后,选择保存SaveFlie,得到新的list,后面要用到。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

一键三连

前面是声音的调整,接下来是制作我们自己声音的模型,对自己的项目进行命名,作为演示这里是123,然后选择自己的显卡,一般是默认独立显卡,这里是4090作为演示。对于下面部分,只需要填写刚刚的标注文件所在位置,即list所在位置,以及训练音频文件目录,就是你自己录制的短频文件位置或者长语句切割之后所在位置,其它不用管,最后开始一键三连就可以(看到这里也给我的文章一键三连吧,十分感谢)

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

分别进行模型设置训练

前面是声音的调整以及制作,接下来是微调训练,可以看到这两个部分主要是进行模型的训练,根据我们的之前的声音进行设定。可以根据自己的显卡显存大小进行调整总训练轮数,次数影响输出效率,这里建议不作为调整,直接开启Sovits训练以及GPT训练即可。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

刷新模型

接下来对于自己的声音进行推理,记得先刷新模型路径,然后对我们刚刚输出的模型进行选择,开启TTS推理WebUI即可弹出新的网页界面,那个才是我们最终输出我们想要声音的界面。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

输入文字合成语音

大的要来了,前面都是对声音的处理以及模型的建立,接下来才是文字转语音的关键。依旧是刷新一下模型路路径,选择我们之前训练完建立的两个模型Sovits模型以及GPT模型,这里就是用刚刚的名字命名的123,然后在左边上传我们简短的音频3-10s即可,可以根据音频的内容进行文本的填充,可以更好地获得输出音频的质量。

【教程】手把手教你如何快速入手,一键获得属于自己的AI声音-第3张

最右边就是我们要的语音,不满意就对前面进行调试

选择你需要合成的文本以及合成的语种,目前支持中日英单或者混合模式进行输出,还可以选择语音文本的切割,个人建议中文选择“按中文句号,切”,最后点击合成语音就可以得到你想要的语音,如果觉得怪怪的,需要对你的参考音频进行调整,是否由于杂音或者不够清晰导致的,个人建议想玩AI语音语音有条件的话,购入一个独立麦克风,目前使用的冰豹拓驰的麦克风,可以根据自己的需求进行选择购买,当然如果不是自己的声音就无所谓,这里不做演示。

最后,感谢看到这里,如果对你有帮助的话,或者觉得有其他疑问都可以在下方留言交流一下,十分感谢您的一键三连。


© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com