開源項目FishSpeech--語音克隆神器-3樓貓

fish-speech是一個開源文本轉語音項目，可以實現文本轉語音，同時能夠克隆音色，在github獲得超過17k⭐。

特徵&功能：

這裡說一下，經過我自己的測試，一段50字左右的文本生成語音大約需要10s（顯卡是4060ti）。至於音色克隆的效果，在默認參數下，上傳一段10s的參考音頻，最終的輸出音色與原音色相似度高達80%！！！還可以根據說話人的語氣進行參數調整，相似度可進一步增加。

---------------

項目部署

環境：Windows11、Python11

硬件需求：NVIDIA顯卡

聲明：該部署流程為個人實踐並總結的最精簡流程，其他部署方式（如使用docker）或在其他操作系統上的部署請自行閱讀項目文檔。

流程：

0. 獲取fish-speech源碼（倉庫地址 fishaudio/fish-speech）；下載CUDA ToolKit 12.x版本，並安裝

1. 運行源碼根目錄下"install_env.bat"開始安裝運行環境

2. 修改根目錄下"API_FLAGS.txt"文件來配置啟動模式：

①前三行這樣是直接進入推理界面：

②前三行這樣是進入配置界面（模型微調、推理服務器配置等）：

③前三行這樣是啟動API模式：

3. 這裡直接以第一種方式啟動。雙擊根目錄下"start.bat"啟動項目，啟動過程如遇到cachetools模塊缺失的問題，自行下載該python模塊並移動到"~\fish-speech-main\fishenv\env\Lib\site-packages\"文件夾下

4. 服務器正常啟動後訪問127.0.0.1:7860

即可進入推理界面：

部署過程中遇到任何問題請參考官方文檔！！

----------------

簡易使用教程

輸入文本、點擊"生成"，默認是隨機音色，下面"高級參數"可以調參。

"參考音頻"：選擇一段10s以內的清晰人聲音頻，在"參考文本"中輸入該音頻對應的語音文本，點擊生成。

好用！

感謝各位貢獻者無私的付出