【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音


3樓貓 發佈時間:2024-05-14 10:00:38 作者:wo老吉 Language

隨著現在AI技術的發展,現在不僅有ChatGPT,國內各種大語言模型更加數不勝數,而早在1月份出現的一個GPT-SoVITS項目,已經關注了很久,不過之前沒有電腦麥克風,只能眼巴巴看著,也訓練了一些其他人的音頻,如果有需要的可以留言。

前言

TTS(Text-To-Speech)這是一種文字轉語音的語音合成。GPT-SoVITS作為一個開源的TTS項目,只需要1分鐘的音頻文件就可以克隆自己的聲音,並且支持將漢語、英語、日語三種語言的文本轉為克隆聲音,讓你成為一個賽博多語種人才。截止到目前為止,該項目總共獲得了2w多收藏,增長趨勢如下圖所示。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第0張

趨勢圖

GPT-SoVITS項目地址:RVC-Boss/GPT-SoVITS: 1 min voicedata can also be used to train a good TTS model! (few shot voice cloning)(github.com)

目前的功能有哪些:

1、 可以控制並輸出參考音頻類似的情感、音色、語速

2、 可以進行語音微調訓練,也直接推理輸出音頻

3、 可以多語種生成,目前支持中日英單或者混合模式

需要設備很簡單:一臺搭載獨立顯卡的電腦以及一個輸入設備麥克風。最好是N卡,獨立麥克風錄製效果比較好。個人演示的是烏龜海岸冰豹拓馳的麥克風,聲音錄音比較清晰,不會有其他雜音,可以根據自己手動的設備進行錄音即可。當然如果沒有獨立麥克風的話,也可以頭戴式耳機或者用手機進行錄製,這樣子就會麻煩一點,因為會有其他一些雜音什麼的,需要前期對聲音進行處理才可以製作成模型,後面會有演示。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第1張

獨立麥克風

準備錄製好聲音,這裡用Windows平臺作為演示,直接打開Windows自帶的錄音機

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第2張

自帶錄音功能

然後在右邊選擇設置中,設置錄製的格式為WAV(無損),質量可以選擇高或者最佳。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

格式設置

然後就可以開啟錄製,正常說話,最好是分別錄製不超過10s的短句,大概15-20條。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

記住文件所在位置

記住這個位置,就是我們接下來要使用的參考音頻素材以及位置的輸入。

目前有整合包和網頁版,這裡只介紹整合包,下面是詳細的教程

可以在上面項目鏈接直接下載GPT-SoVITS,也可以在百度雲盤中下載,建議下載最新版的0306,下載完後解壓即可用:https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi,密碼是mqpi,

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

直接打開bat,不用管理員模式

然後我們打開文件中go-webui.bat,會彈出一個黑色窗口,然後直接打開網頁。注意這個窗口是後臺控制,不能關閉,關閉的話網頁也無法加載。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

啟動後的界面

啟動之後,能看到這樣的一個網頁窗口,如果你是沒有獨立麥克風,那麼聲音可能會有些嘈雜以及長語句的話,可以進行切割一下聲音,通過對聲音的降噪處理以達到純淨聲音,才可以進行後續的使用,具體參考上圖所示。我這裡演示的短句,即切割後的部分,直接在右邊切割後的段落進行輸出,開啟離線批量ASR,完成輸出後,就可以得到一個list。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

一條條進行設置

找到剛剛輸出的list文件所在位置,就可以在對標註工具中進行開啟校準,可以對我們說話的語句以及對照文本進行校準,不準確的部分需要手動調整,文本的多少取決於你輸入的參考音頻多少。一般是2-3頁,可以通過一個個校準之後,選擇保存SaveFlie,得到新的list,後面要用到。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

一鍵三連

前面是聲音的調整,接下來是製作我們自己聲音的模型,對自己的項目進行命名,作為演示這裡是123,然後選擇自己的顯卡,一般是默認獨立顯卡,這裡是4090作為演示。對於下面部分,只需要填寫剛剛的標註文件所在位置,即list所在位置,以及訓練音頻文件目錄,就是你自己錄製的短頻文件位置或者長語句切割之後所在位置,其它不用管,最後開始一鍵三連就可以(看到這裡也給我的文章一鍵三連吧,十分感謝)

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

分別進行模型設置訓練

前面是聲音的調整以及製作,接下來是微調訓練,可以看到這兩個部分主要是進行模型的訓練,根據我們的之前的聲音進行設定。可以根據自己的顯卡顯存大小進行調整總訓練輪數,次數影響輸出效率,這裡建議不作為調整,直接開啟Sovits訓練以及GPT訓練即可。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

刷新模型

接下來對於自己的聲音進行推理,記得先刷新模型路徑,然後對我們剛剛輸出的模型進行選擇,開啟TTS推理WebUI即可彈出新的網頁界面,那個才是我們最終輸出我們想要聲音的界面。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

輸入文字合成語音

大的要來了,前面都是對聲音的處理以及模型的建立,接下來才是文字轉語音的關鍵。依舊是刷新一下模型路路徑,選擇我們之前訓練完建立的兩個模型Sovits模型以及GPT模型,這裡就是用剛剛的名字命名的123,然後在左邊上傳我們簡短的音頻3-10s即可,可以根據音頻的內容進行文本的填充,可以更好地獲得輸出音頻的質量。

【教程】手把手教你如何快速入手,一鍵獲得屬於自己的AI聲音-第3張

最右邊就是我們要的語音,不滿意就對前面進行調試

選擇你需要合成的文本以及合成的語種,目前支持中日英單或者混合模式進行輸出,還可以選擇語音文本的切割,個人建議中文選擇“按中文句號,切”,最後點擊合成語音就可以得到你想要的語音,如果覺得怪怪的,需要對你的參考音頻進行調整,是否由於雜音或者不夠清晰導致的,個人建議想玩AI語音語音有條件的話,購入一個獨立麥克風,目前使用的冰豹拓馳的麥克風,可以根據自己的需求進行選擇購買,當然如果不是自己的聲音就無所謂,這裡不做演示。

最後,感謝看到這裡,如果對你有幫助的話,或者覺得有其他疑問都可以在下方留言交流一下,十分感謝您的一鍵三連。


© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com