AI News HubLIVE
站内改写3 分钟阅读

FluidVoice - 开源 macOS 语音转文字听写应用,支持本地 AI

FluidVoice 是一款面向 macOS 的开源语音听写应用,提供本地 AI 增强的语音转文字功能。它支持多种语音模型、命令模式、写入模式等,所有处理均在设备本地完成,确保隐私安全。最新 1.6.0 版本引入了超低延迟的 Parakeet 引擎和 Fluid Intelligence 本地 AI 增强模块。

来源Hacker News AI作者: danboarder

FluidVoice 是一款专为 macOS 设计的开源语音转文字听写应用,致力于在设备本地提供高效、私密的语音识别体验。该项目基于 GPLv3 协议免费开源,用户可通过 Homebrew 轻松安装:brew install --cask fluidvoice,或从 GitHub 发布页面手动下载。

最新版本 1.6.0 亮点

1.6.0 版本带来了多项重大改进:

  • 超快 Parakeet 引擎:重新实现的 Parakeet 语音识别模型几乎消除了说话与文字显示之间的延迟。
  • Fluid Intelligence:完全本地的 AI 模型,用于设备端听写增强,无需云端或 API 密钥,数据不离开 Mac。
  • 更好的主题:自适应浅色/深色主题,配有紧凑工具栏切换器。
  • 焕然一新的引导流程:一次设置即可完成语言优先的语音引擎选择、真实听写试用和 AI 增强配置。

值得注意的是,官方提示:“基于早期反馈,Fluid Intelligence 可能会让您取消订阅其他听写应用并节省开支。”

核心功能

FluidVoice 提供丰富的功能集,满足不同用户需求:

  • 命令模式:通过语音控制 Mac,启动应用、运行快捷指令、触发系统操作或自动化工作流,无需键盘。
  • 写入模式:在任何应用的文本框中直接写入或改写文本。选中文字后可通过语音重新编写,或内联听写新内容。
  • 实时预览:转录内容以覆盖层形式实时显示,支持 MacBook 刘海屏适配。
  • 多种语音模型:支持 Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe、Apple Speech 以及 Whisper(包括 Tiny、Base、Small、Medium、Large 等多种尺寸)。用户可根据语言和延迟需求自由选择。
  • AI 增强:可选的后处理功能,支持 OpenAI、Groq、自定义提供商或本地 Fluid Intelligence,以获得更干净、更准确的转录结果。
  • 音频历史:可选的本地录音历史记录,支持预算控制和 ZIP 导出,方便回顾过往听写内容。
  • 今日使用统计:通过统计卡片和工具栏小圆点一目了然地查看每日使用情况。
  • 自适应主题:跟随系统自动切换浅色/深色主题,并可通过工具栏快速切换。
  • 全局热键:从任意位置即时启动语音捕获,无需切换应用。
  • 智能输入:通过无障碍 API 将文字直接插入任何应用,实现可靠、跨应用的文本输入。
  • 菜单栏集成:从菜单栏快速访问、查看状态和设置。
  • 自动更新:无缝更新,可选加入 Beta 频道提前体验新功能。
  • 按应用配置:为不同应用分配不同的提示集,使听写自动适应当前工作环境。
  • 本地优先:除非用户明确选择云端 AI 提供商,否则语音和文本绝不离开设备。
  • 最快的 Parakeet 实现:提供 macOS 上最原生的 Parakeet 实现,近乎实时的转录和最低延迟。
  • 可配置覆盖层:从药丸形状到大型覆盖层,用户可自由选择实时预览的显示方式,也可保持最小化。
  • 所有功能可选:AI 增强、Fluid Intelligence、音频历史、分析和 Beta 版本均为可选项。核心听写开箱即用,仅需权限和热键设置。

支持的模型与语言

FluidVoice 支持从零下载的 Apple Speech(适用于 Apple Silicon 和 Intel)到高精度的 Nemotron 和 Whisper 等多种模型。例如:

  • Nemotron Speech 3.5:超快低延迟,支持约 40 种语言,适合流式多语言听写。
  • Parakeet TDT v3:快速默认多语言听写,支持 25 种语言。
  • Cohere Transcribe:高精度多语言听写,支持 14 种语言。
  • Whisper:广泛兼容性,支持最多 99 种语言。

所有模型均适用于 Apple Silicon Mac;Intel Mac 可通过 Whisper 模型(1.5.1 以上)使用。

快速开始

  1. 通过 Homebrew 安装或下载最新发布版。
  2. 授予麦克风和辅助功能权限(听写和输入其他应用必需)。
  3. 在设置中选定全局热键,以便从任何位置触发语音捕获。
  4. 按照引导流程选择语音模型、进行真实听写试用,并可选设置 AI 增强。
  5. (可选)启用 Fluid Intelligence,下载本地 AI 模型以进行设备端增强。
  6. (可选)添加 OpenAI、Groq 或自定义提供商 API 密钥,用于云端增强(密钥安全存储在 macOS 钥匙串中)。

隐私与安全

FluidVoice 坚持本地优先原则。用户的语音、音频和转录文本在未明确选择云端 AI 提供商的情况下绝不离开设备。匿名分析默认开启(仅包括应用版本、macOS 版本、功能标志等低级信息),用户可随时在设置中关闭。不收集语音、转录文本、个人数据或私密信息。

社区与贡献

FluidVoice 拥有活跃的社区,用户可通过 Discord 参与讨论,并在 X(Twitter)上关注 @ALTIC_DEV 了解开发动态。项目欢迎贡献,鼓励在提交拉取请求前先创建 issue 讨论重大变更。开发环境基于 Xcode,依赖通过 Swift Package Manager 管理。

许可与未来

从 2026 年 2 月 23 日起,项目采用 GPLv3 许可;此前版本为 Apache License 2.0。开发团队计划未来推出 Windows、iOS 和 Linux 版本。如果您觉得 FluidVoice 有用,不妨在 GitHub 上为项目点星,这有助于提升可见性和持续开发。