【開源】Fl Caption 離線實時雙語字幕


3樓貓 發佈時間:2025-03-19 21:26:27 作者:xkeyC Language

【開源】Fl Caption 離線實時雙語字幕-第0張

我最近開發了一款 Windows 端實時字幕工具,基於Whisper + LLMs,使用 Flutter 和 Rust 。


Github:https://github.com/xkeyC/fl_caption

演示視頻:https://www.bilibili.com/video/BV1VyQtYMEWA


使用 Whisper + LLM 實現高質量的音頻轉錄與翻譯,目前為 llm 直出效果,計劃開發字幕知識庫用於優化專有名詞翻譯效果,這樣在不同場景使用對應的知識庫即可大幅改善字幕質量。


目前僅支持 Windows 端,建議使用 Nvidia 顯卡配合 cuda 加速。 實時字幕對延遲要求比較高,建議使用 ollama 、vllm 、llm studio 等本地 llm api ,雲端若延遲比較低也可以考慮(比較昂貴)。

在 RTX4090 上測試 large-v3-turbo 模型,12 秒的語音數據 基本在 0.5 秒內處理完畢。配合 14b llm模型,顯存佔用大約是 18 GB ,根據用戶反饋,8G 顯存可使用量化版語音模型+7b llm,也可以獲得比較不錯的翻譯效果。


© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com