【開源】Fl Caption 離線實時雙語字幕-3樓貓

我最近開發了一款 Windows 端實時字幕工具，基於Whisper + LLMs，使用 Flutter 和 Rust 。

Github：https://github.com/xkeyC/fl_caption

演示視頻：https://www.bilibili.com/video/BV1VyQtYMEWA

使用 Whisper + LLM 實現高質量的音頻轉錄與翻譯，目前為 llm 直出效果，計劃開發字幕知識庫用於優化專有名詞翻譯效果，這樣在不同場景使用對應的知識庫即可大幅改善字幕質量。

目前僅支持 Windows 端，建議使用 Nvidia 顯卡配合 cuda 加速。實時字幕對延遲要求比較高，建議使用 ollama 、vllm 、llm studio 等本地 llm api ，雲端若延遲比較低也可以考慮（比較昂貴）。

在 RTX4090 上測試 large-v3-turbo 模型，12 秒的語音數據基本在 0.5 秒內處理完畢。配合 14b llm模型，顯存佔用大約是 18 GB ，根據用戶反饋，8G 顯存可使用量化版語音模型+7b llm，也可以獲得比較不錯的翻譯效果。