FluidVoice - 开源 macOS 语音转文字听写应用,支持本地 AI
FluidVoice 是一款面向 macOS 的开源语音听写应用,提供本地 AI 增强的语音转文字功能。它支持多种语音模型、命令模式、写入模式等,所有处理均在设备本地完成,确保隐私安全。最新 1.6.0 版本引入了超低延迟的 Parakeet 引擎和 Fluid Intelligence 本地 AI 增强模块。
FluidVoice 是一款专为 macOS 设计的开源语音转文字听写应用,致力于在设备本地提供高效、私密的语音识别体验。该项目基于 GPLv3 协议免费开源,用户可通过 Homebrew 轻松安装:brew install --cask fluidvoice,或从 GitHub 发布页面手动下载。
最新版本 1.6.0 亮点
1.6.0 版本带来了多项重大改进:
- 超快 Parakeet 引擎:重新实现的 Parakeet 语音识别模型几乎消除了说话与文字显示之间的延迟。
- Fluid Intelligence:完全本地的 AI 模型,用于设备端听写增强,无需云端或 API 密钥,数据不离开 Mac。
- 更好的主题:自适应浅色/深色主题,配有紧凑工具栏切换器。
- 焕然一新的引导流程:一次设置即可完成语言优先的语音引擎选择、真实听写试用和 AI 增强配置。
值得注意的是,官方提示:“基于早期反馈,Fluid Intelligence 可能会让您取消订阅其他听写应用并节省开支。”
核心功能
FluidVoice 提供丰富的功能集,满足不同用户需求:
- 命令模式:通过语音控制 Mac,启动应用、运行快捷指令、触发系统操作或自动化工作流,无需键盘。
- 写入模式:在任何应用的文本框中直接写入或改写文本。选中文字后可通过语音重新编写,或内联听写新内容。
- 实时预览:转录内容以覆盖层形式实时显示,支持 MacBook 刘海屏适配。
- 多种语音模型:支持 Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe、Apple Speech 以及 Whisper(包括 Tiny、Base、Small、Medium、Large 等多种尺寸)。用户可根据语言和延迟需求自由选择。
- AI 增强:可选的后处理功能,支持 OpenAI、Groq、自定义提供商或本地 Fluid Intelligence,以获得更干净、更准确的转录结果。
- 音频历史:可选的本地录音历史记录,支持预算控制和 ZIP 导出,方便回顾过往听写内容。
- 今日使用统计:通过统计卡片和工具栏小圆点一目了然地查看每日使用情况。
- 自适应主题:跟随系统自动切换浅色/深色主题,并可通过工具栏快速切换。
- 全局热键:从任意位置即时启动语音捕获,无需切换应用。
- 智能输入:通过无障碍 API 将文字直接插入任何应用,实现可靠、跨应用的文本输入。
- 菜单栏集成:从菜单栏快速访问、查看状态和设置。
- 自动更新:无缝更新,可选加入 Beta 频道提前体验新功能。
- 按应用配置:为不同应用分配不同的提示集,使听写自动适应当前工作环境。
- 本地优先:除非用户明确选择云端 AI 提供商,否则语音和文本绝不离开设备。
- 最快的 Parakeet 实现:提供 macOS 上最原生的 Parakeet 实现,近乎实时的转录和最低延迟。
- 可配置覆盖层:从药丸形状到大型覆盖层,用户可自由选择实时预览的显示方式,也可保持最小化。
- 所有功能可选:AI 增强、Fluid Intelligence、音频历史、分析和 Beta 版本均为可选项。核心听写开箱即用,仅需权限和热键设置。
支持的模型与语言
FluidVoice 支持从零下载的 Apple Speech(适用于 Apple Silicon 和 Intel)到高精度的 Nemotron 和 Whisper 等多种模型。例如:
- Nemotron Speech 3.5:超快低延迟,支持约 40 种语言,适合流式多语言听写。
- Parakeet TDT v3:快速默认多语言听写,支持 25 种语言。
- Cohere Transcribe:高精度多语言听写,支持 14 种语言。
- Whisper:广泛兼容性,支持最多 99 种语言。
所有模型均适用于 Apple Silicon Mac;Intel Mac 可通过 Whisper 模型(1.5.1 以上)使用。
快速开始
- 通过 Homebrew 安装或下载最新发布版。
- 授予麦克风和辅助功能权限(听写和输入其他应用必需)。
- 在设置中选定全局热键,以便从任何位置触发语音捕获。
- 按照引导流程选择语音模型、进行真实听写试用,并可选设置 AI 增强。
- (可选)启用 Fluid Intelligence,下载本地 AI 模型以进行设备端增强。
- (可选)添加 OpenAI、Groq 或自定义提供商 API 密钥,用于云端增强(密钥安全存储在 macOS 钥匙串中)。
隐私与安全
FluidVoice 坚持本地优先原则。用户的语音、音频和转录文本在未明确选择云端 AI 提供商的情况下绝不离开设备。匿名分析默认开启(仅包括应用版本、macOS 版本、功能标志等低级信息),用户可随时在设置中关闭。不收集语音、转录文本、个人数据或私密信息。
社区与贡献
FluidVoice 拥有活跃的社区,用户可通过 Discord 参与讨论,并在 X(Twitter)上关注 @ALTIC_DEV 了解开发动态。项目欢迎贡献,鼓励在提交拉取请求前先创建 issue 讨论重大变更。开发环境基于 Xcode,依赖通过 Swift Package Manager 管理。
许可与未来
从 2026 年 2 月 23 日起,项目采用 GPLv3 许可;此前版本为 Apache License 2.0。开发团队计划未来推出 Windows、iOS 和 Linux 版本。如果您觉得 FluidVoice 有用,不妨在 GitHub 上为项目点星,这有助于提升可见性和持续开发。