AI News HubLIVE
站內改寫3 分鐘閱讀

FluidVoice - 開源 macOS 語音轉文字聽寫應用,支持本地 AI

FluidVoice 是一款面向 macOS 的開源語音聽寫應用,提供本地 AI 增強的語音轉文字功能。它支持多種語音模型、命令模式、寫入模式等,所有處理均在設備本地完成,確保隱私安全。最新 1.6.0 版本引入了超低延遲的 Parakeet 引擎和 Fluid Intelligence 本地 AI 增強模塊。

來源Hacker News AI作者: danboarder

FluidVoice 是一款專為 macOS 設計的開源語音轉文字聽寫應用,致力於在設備本地提供高效、私密的語音識別體驗。該項目基於 GPLv3 協議免費開源,用户可通過 Homebrew 輕鬆安裝:brew install --cask fluidvoice,或從 GitHub 發佈頁面手動下載。

最新版本 1.6.0 亮點

1.6.0 版本帶來了多項重大改進:

  • 超快 Parakeet 引擎:重新實現的 Parakeet 語音識別模型幾乎消除了説話與文字顯示之間的延遲。
  • Fluid Intelligence:完全本地的 AI 模型,用於設備端聽寫增強,無需雲端或 API 密鑰,數據不離開 Mac。
  • 更好的主題:自適應淺色/深色主題,配有緊湊工具欄切換器。
  • 煥然一新的引導流程:一次設置即可完成語言優先的語音引擎選擇、真實聽寫試用和 AI 增強配置。

值得注意的是,官方提示:“基於早期反饋,Fluid Intelligence 可能會讓您取消訂閲其他聽寫應用並節省開支。”

核心功能

FluidVoice 提供豐富的功能集,滿足不同用户需求:

  • 命令模式:通過語音控制 Mac,啓動應用、運行快捷指令、觸發系統操作或自動化工作流,無需鍵盤。
  • 寫入模式:在任何應用的文本框中直接寫入或改寫文本。選中文字後可通過語音重新編寫,或內聯聽寫新內容。
  • 實時預覽:轉錄內容以覆蓋層形式實時顯示,支持 MacBook 劉海屏適配。
  • 多種語音模型:支持 Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe、Apple Speech 以及 Whisper(包括 Tiny、Base、Small、Medium、Large 等多種尺寸)。用户可根據語言和延遲需求自由選擇。
  • AI 增強:可選的後處理功能,支持 OpenAI、Groq、自定義提供商或本地 Fluid Intelligence,以獲得更乾淨、更準確的轉錄結果。
  • 音頻歷史:可選的本地錄音歷史記錄,支持預算控制和 ZIP 導出,方便回顧過往聽寫內容。
  • 今日使用統計:通過統計卡片和工具欄小圓點一目瞭然地查看每日使用情況。
  • 自適應主題:跟隨系統自動切換淺色/深色主題,並可通過工具欄快速切換。
  • 全局熱鍵:從任意位置即時啓動語音捕獲,無需切換應用。
  • 智能輸入:通過無障礙 API 將文字直接插入任何應用,實現可靠、跨應用的文本輸入。
  • 菜單欄集成:從菜單欄快速訪問、查看狀態和設置。
  • 自動更新:無縫更新,可選加入 Beta 頻道提前體驗新功能。
  • 按應用配置:為不同應用分配不同的提示集,使聽寫自動適應當前工作環境。
  • 本地優先:除非用户明確選擇雲端 AI 提供商,否則語音和文本絕不離開設備。
  • 最快的 Parakeet 實現:提供 macOS 上最原生的 Parakeet 實現,近乎實時的轉錄和最低延遲。
  • 可配置覆蓋層:從藥丸形狀到大型覆蓋層,用户可自由選擇實時預覽的顯示方式,也可保持最小化。
  • 所有功能可選:AI 增強、Fluid Intelligence、音頻歷史、分析和 Beta 版本均為可選項。核心聽寫開箱即用,僅需權限和熱鍵設置。

支持的模型與語言

FluidVoice 支持從零下載的 Apple Speech(適用於 Apple Silicon 和 Intel)到高精度的 Nemotron 和 Whisper 等多種模型。例如:

  • Nemotron Speech 3.5:超快低延遲,支持約 40 種語言,適合流式多語言聽寫。
  • Parakeet TDT v3:快速默認多語言聽寫,支持 25 種語言。
  • Cohere Transcribe:高精度多語言聽寫,支持 14 種語言。
  • Whisper:廣泛兼容性,支持最多 99 種語言。

所有模型均適用於 Apple Silicon Mac;Intel Mac 可通過 Whisper 模型(1.5.1 以上)使用。

快速開始

  1. 通過 Homebrew 安裝或下載最新發布版。
  2. 授予麥克風和輔助功能權限(聽寫和輸入其他應用必需)。
  3. 在設置中選定全局熱鍵,以便從任何位置觸發語音捕獲。
  4. 按照引導流程選擇語音模型、進行真實聽寫試用,並可選設置 AI 增強。
  5. (可選)啓用 Fluid Intelligence,下載本地 AI 模型以進行設備端增強。
  6. (可選)添加 OpenAI、Groq 或自定義提供商 API 密鑰,用於雲端增強(密鑰安全存儲在 macOS 鑰匙串中)。

隱私與安全

FluidVoice 堅持本地優先原則。用户的語音、音頻和轉錄文本在未明確選擇雲端 AI 提供商的情況下絕不離開設備。匿名分析默認開啓(僅包括應用版本、macOS 版本、功能標誌等低級信息),用户可隨時在設置中關閉。不收集語音、轉錄文本、個人數據或私密信息。

社區與貢獻

FluidVoice 擁有活躍的社區,用户可通過 Discord 參與討論,並在 X(Twitter)上關注 @ALTIC_DEV 瞭解開發動態。項目歡迎貢獻,鼓勵在提交拉取請求前先創建 issue 討論重大變更。開發環境基於 Xcode,依賴通過 Swift Package Manager 管理。

許可與未來

從 2026 年 2 月 23 日起,項目採用 GPLv3 許可;此前版本為 Apache License 2.0。開發團隊計劃未來推出 Windows、iOS 和 Linux 版本。如果您覺得 FluidVoice 有用,不妨在 GitHub 上為項目點星,這有助於提升可見性和持續開發。