
我最近开发了一款 Windows 端实时字幕工具,基于Whisper + LLMs,使用 Flutter 和 Rust 。
Github:https://github.com/xkeyC/fl_caption
演示视频:https://www.bilibili.com/video/BV1VyQtYMEWA
使用 Whisper + LLM 实现高质量的音频转录与翻译,目前为 llm 直出效果,计划开发字幕知识库用于优化专有名词翻译效果,这样在不同场景使用对应的知识库即可大幅改善字幕质量。
目前仅支持 Windows 端,建议使用 Nvidia 显卡配合 cuda 加速。 实时字幕对延迟要求比较高,建议使用 ollama 、vllm 、llm studio 等本地 llm api ,云端若延迟比较低也可以考虑(比较昂贵)。
在 RTX4090 上测试 large-v3-turbo 模型,12 秒的语音数据 基本在 0.5 秒内处理完毕。配合 14b llm模型,显存占用大约是 18 GB ,根据用户反馈,8G 显存可使用量化版语音模型+7b llm,也可以获得比较不错的翻译效果。