【教程】手把手教你如何快速入手，一键获得属于自己的AI声音-3楼猫

随着现在AI技术的发展，现在不仅有ChatGPT，国内各种大语言模型更加数不胜数，而早在1月份出现的一个GPT-SoVITS项目，已经关注了很久，不过之前没有电脑麦克风，只能眼巴巴看着，也训练了一些其他人的音频，如果有需要的可以留言。

前言

TTS（Text-To-Speech）这是一种文字转语音的语音合成。GPT-SoVITS作为一个开源的TTS项目，只需要1分钟的音频文件就可以克隆自己的声音，并且支持将汉语、英语、日语三种语言的文本转为克隆声音，让你成为一个赛博多语种人才。截止到目前为止，该项目总共获得了2w多收藏，增长趋势如下图所示。

趋势图

GPT-SoVITS项目地址：RVC-Boss/GPT-SoVITS: 1 min voicedata can also be used to train a good TTS model! (few shot voice cloning)(github.com)

目前的功能有哪些：

1、可以控制并输出参考音频类似的情感、音色、语速

2、可以进行语音微调训练，也直接推理输出音频

3、可以多语种生成，目前支持中日英单或者混合模式

需要设备很简单：一台搭载独立显卡的电脑以及一个输入设备麦克风。最好是N卡，独立麦克风录制效果比较好。个人演示的是乌龟海岸冰豹拓驰的麦克风，声音录音比较清晰，不会有其他杂音，可以根据自己手动的设备进行录音即可。当然如果没有独立麦克风的话，也可以头戴式耳机或者用手机进行录制，这样子就会麻烦一点，因为会有其他一些杂音什么的，需要前期对声音进行处理才可以制作成模型，后面会有演示。

独立麦克风

准备录制好声音，这里用Windows平台作为演示，直接打开Windows自带的录音机

自带录音功能

然后在右边选择设置中，设置录制的格式为WAV（无损），质量可以选择高或者最佳。

格式设置

然后就可以开启录制，正常说话，最好是分别录制不超过10s的短句，大概15-20条。

记住文件所在位置

记住这个位置，就是我们接下来要使用的参考音频素材以及位置的输入。

目前有整合包和网页版，这里只介绍整合包，下面是详细的教程

可以在上面项目链接直接下载GPT-SoVITS，也可以在百度云盘中下载，建议下载最新版的0306，下载完后解压即可用：https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi，密码是mqpi，

直接打开bat，不用管理员模式

然后我们打开文件中go-webui.bat，会弹出一个黑色窗口，然后直接打开网页。注意这个窗口是后台控制，不能关闭，关闭的话网页也无法加载。

启动后的界面

启动之后，能看到这样的一个网页窗口，如果你是没有独立麦克风，那么声音可能会有些嘈杂以及长语句的话，可以进行切割一下声音，通过对声音的降噪处理以达到纯净声音，才可以进行后续的使用，具体参考上图所示。我这里演示的短句，即切割后的部分，直接在右边切割后的段落进行输出，开启离线批量ASR，完成输出后，就可以得到一个list。

一条条进行设置

找到刚刚输出的list文件所在位置，就可以在对标注工具中进行开启校准，可以对我们说话的语句以及对照文本进行校准，不准确的部分需要手动调整，文本的多少取决于你输入的参考音频多少。一般是2-3页，可以通过一个个校准之后，选择保存SaveFlie，得到新的list，后面要用到。

一键三连

前面是声音的调整，接下来是制作我们自己声音的模型，对自己的项目进行命名，作为演示这里是123，然后选择自己的显卡，一般是默认独立显卡，这里是4090作为演示。对于下面部分，只需要填写刚刚的标注文件所在位置，即list所在位置，以及训练音频文件目录，就是你自己录制的短频文件位置或者长语句切割之后所在位置，其它不用管，最后开始一键三连就可以（看到这里也给我的文章一键三连吧，十分感谢）

分别进行模型设置训练

前面是声音的调整以及制作，接下来是微调训练，可以看到这两个部分主要是进行模型的训练，根据我们的之前的声音进行设定。可以根据自己的显卡显存大小进行调整总训练轮数，次数影响输出效率，这里建议不作为调整，直接开启Sovits训练以及GPT训练即可。

刷新模型

接下来对于自己的声音进行推理，记得先刷新模型路径，然后对我们刚刚输出的模型进行选择，开启TTS推理WebUI即可弹出新的网页界面，那个才是我们最终输出我们想要声音的界面。

输入文字合成语音

大的要来了，前面都是对声音的处理以及模型的建立，接下来才是文字转语音的关键。依旧是刷新一下模型路路径，选择我们之前训练完建立的两个模型Sovits模型以及GPT模型，这里就是用刚刚的名字命名的123，然后在左边上传我们简短的音频3-10s即可，可以根据音频的内容进行文本的填充，可以更好地获得输出音频的质量。

最右边就是我们要的语音，不满意就对前面进行调试

选择你需要合成的文本以及合成的语种，目前支持中日英单或者混合模式进行输出，还可以选择语音文本的切割，个人建议中文选择“按中文句号，切”，最后点击合成语音就可以得到你想要的语音，如果觉得怪怪的，需要对你的参考音频进行调整，是否由于杂音或者不够清晰导致的，个人建议想玩AI语音语音有条件的话，购入一个独立麦克风，目前使用的冰豹拓驰的麦克风，可以根据自己的需求进行选择购买，当然如果不是自己的声音就无所谓，这里不做演示。

最后，感谢看到这里，如果对你有帮助的话，或者觉得有其他疑问都可以在下方留言交流一下，十分感谢您的一键三连。