【教程】手把手教你如何快速入手，一鍵獲得屬於自己的AI聲音-3樓貓

隨著現在AI技術的發展，現在不僅有ChatGPT，國內各種大語言模型更加數不勝數，而早在1月份出現的一個GPT-SoVITS項目，已經關注了很久，不過之前沒有電腦麥克風，只能眼巴巴看著，也訓練了一些其他人的音頻，如果有需要的可以留言。

前言

TTS（Text-To-Speech）這是一種文字轉語音的語音合成。GPT-SoVITS作為一個開源的TTS項目，只需要1分鐘的音頻文件就可以克隆自己的聲音，並且支持將漢語、英語、日語三種語言的文本轉為克隆聲音，讓你成為一個賽博多語種人才。截止到目前為止，該項目總共獲得了2w多收藏，增長趨勢如下圖所示。

趨勢圖

GPT-SoVITS項目地址：RVC-Boss/GPT-SoVITS: 1 min voicedata can also be used to train a good TTS model! (few shot voice cloning)(github.com)

目前的功能有哪些：

1、可以控制並輸出參考音頻類似的情感、音色、語速

2、可以進行語音微調訓練，也直接推理輸出音頻

3、可以多語種生成，目前支持中日英單或者混合模式

需要設備很簡單：一臺搭載獨立顯卡的電腦以及一個輸入設備麥克風。最好是N卡，獨立麥克風錄製效果比較好。個人演示的是烏龜海岸冰豹拓馳的麥克風，聲音錄音比較清晰，不會有其他雜音，可以根據自己手動的設備進行錄音即可。當然如果沒有獨立麥克風的話，也可以頭戴式耳機或者用手機進行錄製，這樣子就會麻煩一點，因為會有其他一些雜音什麼的，需要前期對聲音進行處理才可以製作成模型，後面會有演示。

獨立麥克風

準備錄製好聲音，這裡用Windows平臺作為演示，直接打開Windows自帶的錄音機

自帶錄音功能

然後在右邊選擇設置中，設置錄製的格式為WAV（無損），質量可以選擇高或者最佳。

格式設置

然後就可以開啟錄製，正常說話，最好是分別錄製不超過10s的短句，大概15-20條。

記住文件所在位置

記住這個位置，就是我們接下來要使用的參考音頻素材以及位置的輸入。

目前有整合包和網頁版，這裡只介紹整合包，下面是詳細的教程

可以在上面項目鏈接直接下載GPT-SoVITS，也可以在百度雲盤中下載，建議下載最新版的0306，下載完後解壓即可用：https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi，密碼是mqpi，

直接打開bat，不用管理員模式

然後我們打開文件中go-webui.bat，會彈出一個黑色窗口，然後直接打開網頁。注意這個窗口是後臺控制，不能關閉，關閉的話網頁也無法加載。

啟動後的界面

啟動之後，能看到這樣的一個網頁窗口，如果你是沒有獨立麥克風，那麼聲音可能會有些嘈雜以及長語句的話，可以進行切割一下聲音，通過對聲音的降噪處理以達到純淨聲音，才可以進行後續的使用，具體參考上圖所示。我這裡演示的短句，即切割後的部分，直接在右邊切割後的段落進行輸出，開啟離線批量ASR，完成輸出後，就可以得到一個list。

一條條進行設置

找到剛剛輸出的list文件所在位置，就可以在對標註工具中進行開啟校準，可以對我們說話的語句以及對照文本進行校準，不準確的部分需要手動調整，文本的多少取決於你輸入的參考音頻多少。一般是2-3頁，可以通過一個個校準之後，選擇保存SaveFlie，得到新的list，後面要用到。

一鍵三連

前面是聲音的調整，接下來是製作我們自己聲音的模型，對自己的項目進行命名，作為演示這裡是123，然後選擇自己的顯卡，一般是默認獨立顯卡，這裡是4090作為演示。對於下面部分，只需要填寫剛剛的標註文件所在位置，即list所在位置，以及訓練音頻文件目錄，就是你自己錄製的短頻文件位置或者長語句切割之後所在位置，其它不用管，最後開始一鍵三連就可以（看到這裡也給我的文章一鍵三連吧，十分感謝）

分別進行模型設置訓練

前面是聲音的調整以及製作，接下來是微調訓練，可以看到這兩個部分主要是進行模型的訓練，根據我們的之前的聲音進行設定。可以根據自己的顯卡顯存大小進行調整總訓練輪數，次數影響輸出效率，這裡建議不作為調整，直接開啟Sovits訓練以及GPT訓練即可。

刷新模型

接下來對於自己的聲音進行推理，記得先刷新模型路徑，然後對我們剛剛輸出的模型進行選擇，開啟TTS推理WebUI即可彈出新的網頁界面，那個才是我們最終輸出我們想要聲音的界面。

輸入文字合成語音

大的要來了，前面都是對聲音的處理以及模型的建立，接下來才是文字轉語音的關鍵。依舊是刷新一下模型路路徑，選擇我們之前訓練完建立的兩個模型Sovits模型以及GPT模型，這裡就是用剛剛的名字命名的123，然後在左邊上傳我們簡短的音頻3-10s即可，可以根據音頻的內容進行文本的填充，可以更好地獲得輸出音頻的質量。

最右邊就是我們要的語音，不滿意就對前面進行調試

選擇你需要合成的文本以及合成的語種，目前支持中日英單或者混合模式進行輸出，還可以選擇語音文本的切割，個人建議中文選擇“按中文句號，切”，最後點擊合成語音就可以得到你想要的語音，如果覺得怪怪的，需要對你的參考音頻進行調整，是否由於雜音或者不夠清晰導致的，個人建議想玩AI語音語音有條件的話，購入一個獨立麥克風，目前使用的冰豹拓馳的麥克風，可以根據自己的需求進行選擇購買，當然如果不是自己的聲音就無所謂，這裡不做演示。

最後，感謝看到這裡，如果對你有幫助的話，或者覺得有其他疑問都可以在下方留言交流一下，十分感謝您的一鍵三連。