AI News HubLIVE
站內改寫3 分鐘閱讀

FluidVoice - 開源 macOS 語音轉文字聽寫應用,支援本地 AI

FluidVoice 是一款面向 macOS 的開源語音聽寫應用,提供本地 AI 增強的語音轉文字功能。它支援多種語音模型、命令模式、寫入模式等,所有處理均在裝置本地完成,確保隱私安全。最新 1.6.0 版本引入了超低延遲的 Parakeet 引擎和 Fluid Intelligence 本地 AI 增強模組。

來源Hacker News AI作者: danboarder

FluidVoice 是一款專為 macOS 設計的開源語音轉文字聽寫應用,致力於在裝置本地提供高效、私密的語音識別體驗。該專案基於 GPLv3 協議免費開源,使用者可透過 Homebrew 輕鬆安裝:brew install --cask fluidvoice,或從 GitHub 釋出頁面手動下載。

最新版本 1.6.0 亮點

1.6.0 版本帶來了多項重大改進:

  • 超快 Parakeet 引擎:重新實現的 Parakeet 語音識別模型幾乎消除了說話與文字顯示之間的延遲。
  • Fluid Intelligence:完全本地的 AI 模型,用於裝置端聽寫增強,無需雲端或 API 金鑰,資料不離開 Mac。
  • 更好的主題:自適應淺色/深色主題,配有緊湊工具欄切換器。
  • 煥然一新的引導流程:一次設定即可完成語言優先的語音引擎選擇、真實聽寫試用和 AI 增強配置。

值得注意的是,官方提示:“基於早期反饋,Fluid Intelligence 可能會讓您取消訂閱其他聽寫應用並節省開支。”

核心功能

FluidVoice 提供豐富的功能集,滿足不同使用者需求:

  • 命令模式:透過語音控制 Mac,啟動應用、執行快捷指令、觸發系統操作或自動化工作流,無需鍵盤。
  • 寫入模式:在任何應用的文本框中直接寫入或改寫文本。選中文字後可透過語音重新編寫,或內聯聽寫新內容。
  • 即時預覽:轉錄內容以覆蓋層形式即時顯示,支援 MacBook 劉海屏適配。
  • 多種語音模型:支援 Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe、Apple Speech 以及 Whisper(包括 Tiny、Base、Small、Medium、Large 等多種尺寸)。使用者可根據語言和延遲需求自由選擇。
  • AI 增強:可選的後處理功能,支援 OpenAI、Groq、自定義提供商或本地 Fluid Intelligence,以獲得更乾淨、更準確的轉錄結果。
  • 音訊歷史:可選的本地錄音歷史記錄,支援預算控制和 ZIP 匯出,方便回顧過往聽寫內容。
  • 今日使用統計:透過統計卡片和工具欄小圓點一目瞭然地檢視每日使用情況。
  • 自適應主題:跟隨系統自動切換淺色/深色主題,並可透過工具欄快速切換。
  • 全域性熱鍵:從任意位置即時啟動語音捕獲,無需切換應用。
  • 智慧輸入:透過無障礙 API 將文字直接插入任何應用,實現可靠、跨應用的文本輸入。
  • 選單欄整合:從選單欄快速訪問、檢視狀態和設定。
  • 自動更新:無縫更新,可選加入 Beta 頻道提前體驗新功能。
  • 按應用配置:為不同應用分配不同的提示集,使聽寫自動適應當前工作環境。
  • 本地優先:除非使用者明確選擇雲端 AI 提供商,否則語音和文本絕不離開裝置。
  • 最快的 Parakeet 實現:提供 macOS 上最原生的 Parakeet 實現,近乎即時的轉錄和最低延遲。
  • 可配置覆蓋層:從藥丸形狀到大型覆蓋層,使用者可自由選擇即時預覽的顯示方式,也可保持最小化。
  • 所有功能可選:AI 增強、Fluid Intelligence、音訊歷史、分析和 Beta 版本均為可選項。核心聽寫開箱即用,僅需許可權和熱鍵設定。

支援的模型與語言

FluidVoice 支援從零下載的 Apple Speech(適用於 Apple Silicon 和 Intel)到高精度的 Nemotron 和 Whisper 等多種模型。例如:

  • Nemotron Speech 3.5:超快低延遲,支援約 40 種語言,適合流式多語言聽寫。
  • Parakeet TDT v3:快速預設多語言聽寫,支援 25 種語言。
  • Cohere Transcribe:高精度多語言聽寫,支援 14 種語言。
  • Whisper:廣泛相容性,支援最多 99 種語言。

所有模型均適用於 Apple Silicon Mac;Intel Mac 可透過 Whisper 模型(1.5.1 以上)使用。

快速開始

  1. 透過 Homebrew 安裝或下載最新發布版。
  2. 授予麥克風和輔助功能許可權(聽寫和輸入其他應用必需)。
  3. 在設定中選定全域性熱鍵,以便從任何位置觸發語音捕獲。
  4. 按照引導流程選擇語音模型、進行真實聽寫試用,並可選設定 AI 增強。
  5. (可選)啟用 Fluid Intelligence,下載本地 AI 模型以進行裝置端增強。
  6. (可選)新增 OpenAI、Groq 或自定義提供商 API 金鑰,用於雲端增強(金鑰安全儲存在 macOS 鑰匙串中)。

隱私與安全

FluidVoice 堅持本地優先原則。使用者的語音、音訊和轉錄文本在未明確選擇雲端 AI 提供商的情況下絕不離開裝置。匿名分析預設開啟(僅包括應用版本、macOS 版本、功能標誌等低階資訊),使用者可隨時在設定中關閉。不收集語音、轉錄文本、個人資料或私密資訊。

社群與貢獻

FluidVoice 擁有活躍的社群,使用者可透過 Discord 參與討論,並在 X(Twitter)上關注 @ALTIC_DEV 瞭解開發動態。專案歡迎貢獻,鼓勵在提交拉取請求前先建立 issue 討論重大變更。開發環境基於 Xcode,依賴透過 Swift Package Manager 管理。

許可與未來

從 2026 年 2 月 23 日起,專案採用 GPLv3 許可;此前版本為 Apache License 2.0。開發團隊計劃未來推出 Windows、iOS 和 Linux 版本。如果您覺得 FluidVoice 有用,不妨在 GitHub 上為專案點星,這有助於提升可見性和持續開發。