【开源】Fl Caption 离线实时双语字幕


3楼猫 发布时间:2025-03-19 21:26:27 作者:xkeyC Language

【开源】Fl Caption 离线实时双语字幕-第0张

我最近开发了一款 Windows 端实时字幕工具,基于Whisper + LLMs,使用 Flutter 和 Rust 。


Github:https://github.com/xkeyC/fl_caption

演示视频:https://www.bilibili.com/video/BV1VyQtYMEWA


使用 Whisper + LLM 实现高质量的音频转录与翻译,目前为 llm 直出效果,计划开发字幕知识库用于优化专有名词翻译效果,这样在不同场景使用对应的知识库即可大幅改善字幕质量。


目前仅支持 Windows 端,建议使用 Nvidia 显卡配合 cuda 加速。 实时字幕对延迟要求比较高,建议使用 ollama 、vllm 、llm studio 等本地 llm api ,云端若延迟比较低也可以考虑(比较昂贵)。

在 RTX4090 上测试 large-v3-turbo 模型,12 秒的语音数据 基本在 0.5 秒内处理完毕。配合 14b llm模型,显存占用大约是 18 GB ,根据用户反馈,8G 显存可使用量化版语音模型+7b llm,也可以获得比较不错的翻译效果。


© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com