【开源】Fl Caption 离线实时双语字幕-3楼猫

我最近开发了一款 Windows 端实时字幕工具，基于Whisper + LLMs，使用 Flutter 和 Rust 。

Github：https://github.com/xkeyC/fl_caption

演示视频：https://www.bilibili.com/video/BV1VyQtYMEWA

使用 Whisper + LLM 实现高质量的音频转录与翻译，目前为 llm 直出效果，计划开发字幕知识库用于优化专有名词翻译效果，这样在不同场景使用对应的知识库即可大幅改善字幕质量。

目前仅支持 Windows 端，建议使用 Nvidia 显卡配合 cuda 加速。实时字幕对延迟要求比较高，建议使用 ollama 、vllm 、llm studio 等本地 llm api ，云端若延迟比较低也可以考虑（比较昂贵）。

在 RTX4090 上测试 large-v3-turbo 模型，12 秒的语音数据基本在 0.5 秒内处理完毕。配合 14b llm模型，显存占用大约是 18 GB ，根据用户反馈，8G 显存可使用量化版语音模型+7b llm，也可以获得比较不错的翻译效果。