開源項目FishSpeech--語音克隆神器


3樓貓 發佈時間:2024-12-26 16:23:34 作者:一個小號。 Language

fish-speech是一個開源文本轉語音項目,可以實現文本轉語音,同時能夠克隆音色,在github獲得超過17k⭐。

特徵&功能:

  • 低樣本:輸入10-30s的聲音樣本即可生成高質量TTS輸出
  • 多語言支持:支持英語、日語、韓語、中文、法語、德語、阿拉伯語和西班牙語
  • 無音素依賴
  • 準確率高
  • 速度快
  • 良好的UI:支持WebUI和基於pyQt的GUI
  • 易於部署:支持Linux、Windows和macOS

這裡說一下,經過我自己的測試,一段50字左右的文本生成語音大約需要10s(顯卡是4060ti)。至於音色克隆的效果,在默認參數下,上傳一段10s的參考音頻,最終的輸出音色與原音色相似度高達80%!!!還可以根據說話人的語氣進行參數調整,相似度可進一步增加。

 ---------------

項目部署

環境:Windows11、Python11

硬件需求:NVIDIA顯卡

聲明:該部署流程為個人實踐並總結的最精簡流程,其他部署方式(如使用docker)或在其他操作系統上的部署請自行閱讀項目文檔。

流程:

0. 獲取fish-speech源碼(倉庫地址 fishaudio/fish-speech);下載CUDA ToolKit 12.x版本,並安裝

    1. 運行源碼根目錄下"install_env.bat"開始安裝運行環境

      2. 修改根目錄下"API_FLAGS.txt"文件來配置啟動模式:

      ①前三行這樣是直接進入推理界面:

      開源項目FishSpeech--語音克隆神器-第0張

      ②前三行這樣是進入配置界面(模型微調、推理服務器配置等):

      開源項目FishSpeech--語音克隆神器-第1張

      ③前三行這樣是啟動API模式:

      開源項目FishSpeech--語音克隆神器-第2張

      3. 這裡直接以第一種方式啟動。雙擊根目錄下"start.bat"啟動項目,啟動過程如遇到cachetools模塊缺失的問題,自行下載該python模塊並移動到"~\fish-speech-main\fishenv\env\Lib\site-packages\"文件夾下

      4. 服務器正常啟動後訪問127.0.0.1:7860

      即可進入推理界面:

      開源項目FishSpeech--語音克隆神器-第3張

      部署過程中遇到任何問題請參考官方文檔!!

      ----------------

      簡易使用教程

      輸入文本、點擊"生成",默認是隨機音色,下面"高級參數"可以調參。

      "參考音頻":選擇一段10s以內的清晰人聲音頻,在"參考文本"中輸入該音頻對應的語音文本,點擊生成。

      好用!

      感謝各位貢獻者無私的付出


      © 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com