FluidVoice - 開源 macOS 語音轉文字聽寫應用,支援本地 AI
FluidVoice 是一款面向 macOS 的開源語音聽寫應用,提供本地 AI 增強的語音轉文字功能。它支援多種語音模型、命令模式、寫入模式等,所有處理均在裝置本地完成,確保隱私安全。最新 1.6.0 版本引入了超低延遲的 Parakeet 引擎和 Fluid Intelligence 本地 AI 增強模組。
FluidVoice 是一款專為 macOS 設計的開源語音轉文字聽寫應用,致力於在裝置本地提供高效、私密的語音識別體驗。該專案基於 GPLv3 協議免費開源,使用者可透過 Homebrew 輕鬆安裝:brew install --cask fluidvoice,或從 GitHub 釋出頁面手動下載。
最新版本 1.6.0 亮點
1.6.0 版本帶來了多項重大改進:
- 超快 Parakeet 引擎:重新實現的 Parakeet 語音識別模型幾乎消除了說話與文字顯示之間的延遲。
- Fluid Intelligence:完全本地的 AI 模型,用於裝置端聽寫增強,無需雲端或 API 金鑰,資料不離開 Mac。
- 更好的主題:自適應淺色/深色主題,配有緊湊工具欄切換器。
- 煥然一新的引導流程:一次設定即可完成語言優先的語音引擎選擇、真實聽寫試用和 AI 增強配置。
值得注意的是,官方提示:“基於早期反饋,Fluid Intelligence 可能會讓您取消訂閱其他聽寫應用並節省開支。”
核心功能
FluidVoice 提供豐富的功能集,滿足不同使用者需求:
- 命令模式:透過語音控制 Mac,啟動應用、執行快捷指令、觸發系統操作或自動化工作流,無需鍵盤。
- 寫入模式:在任何應用的文本框中直接寫入或改寫文本。選中文字後可透過語音重新編寫,或內聯聽寫新內容。
- 即時預覽:轉錄內容以覆蓋層形式即時顯示,支援 MacBook 劉海屏適配。
- 多種語音模型:支援 Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe、Apple Speech 以及 Whisper(包括 Tiny、Base、Small、Medium、Large 等多種尺寸)。使用者可根據語言和延遲需求自由選擇。
- AI 增強:可選的後處理功能,支援 OpenAI、Groq、自定義提供商或本地 Fluid Intelligence,以獲得更乾淨、更準確的轉錄結果。
- 音訊歷史:可選的本地錄音歷史記錄,支援預算控制和 ZIP 匯出,方便回顧過往聽寫內容。
- 今日使用統計:透過統計卡片和工具欄小圓點一目瞭然地檢視每日使用情況。
- 自適應主題:跟隨系統自動切換淺色/深色主題,並可透過工具欄快速切換。
- 全域性熱鍵:從任意位置即時啟動語音捕獲,無需切換應用。
- 智慧輸入:透過無障礙 API 將文字直接插入任何應用,實現可靠、跨應用的文本輸入。
- 選單欄整合:從選單欄快速訪問、檢視狀態和設定。
- 自動更新:無縫更新,可選加入 Beta 頻道提前體驗新功能。
- 按應用配置:為不同應用分配不同的提示集,使聽寫自動適應當前工作環境。
- 本地優先:除非使用者明確選擇雲端 AI 提供商,否則語音和文本絕不離開裝置。
- 最快的 Parakeet 實現:提供 macOS 上最原生的 Parakeet 實現,近乎即時的轉錄和最低延遲。
- 可配置覆蓋層:從藥丸形狀到大型覆蓋層,使用者可自由選擇即時預覽的顯示方式,也可保持最小化。
- 所有功能可選:AI 增強、Fluid Intelligence、音訊歷史、分析和 Beta 版本均為可選項。核心聽寫開箱即用,僅需許可權和熱鍵設定。
支援的模型與語言
FluidVoice 支援從零下載的 Apple Speech(適用於 Apple Silicon 和 Intel)到高精度的 Nemotron 和 Whisper 等多種模型。例如:
- Nemotron Speech 3.5:超快低延遲,支援約 40 種語言,適合流式多語言聽寫。
- Parakeet TDT v3:快速預設多語言聽寫,支援 25 種語言。
- Cohere Transcribe:高精度多語言聽寫,支援 14 種語言。
- Whisper:廣泛相容性,支援最多 99 種語言。
所有模型均適用於 Apple Silicon Mac;Intel Mac 可透過 Whisper 模型(1.5.1 以上)使用。
快速開始
- 透過 Homebrew 安裝或下載最新發布版。
- 授予麥克風和輔助功能許可權(聽寫和輸入其他應用必需)。
- 在設定中選定全域性熱鍵,以便從任何位置觸發語音捕獲。
- 按照引導流程選擇語音模型、進行真實聽寫試用,並可選設定 AI 增強。
- (可選)啟用 Fluid Intelligence,下載本地 AI 模型以進行裝置端增強。
- (可選)新增 OpenAI、Groq 或自定義提供商 API 金鑰,用於雲端增強(金鑰安全儲存在 macOS 鑰匙串中)。
隱私與安全
FluidVoice 堅持本地優先原則。使用者的語音、音訊和轉錄文本在未明確選擇雲端 AI 提供商的情況下絕不離開裝置。匿名分析預設開啟(僅包括應用版本、macOS 版本、功能標誌等低階資訊),使用者可隨時在設定中關閉。不收集語音、轉錄文本、個人資料或私密資訊。
社群與貢獻
FluidVoice 擁有活躍的社群,使用者可透過 Discord 參與討論,並在 X(Twitter)上關注 @ALTIC_DEV 瞭解開發動態。專案歡迎貢獻,鼓勵在提交拉取請求前先建立 issue 討論重大變更。開發環境基於 Xcode,依賴透過 Swift Package Manager 管理。
許可與未來
從 2026 年 2 月 23 日起,專案採用 GPLv3 許可;此前版本為 Apache License 2.0。開發團隊計劃未來推出 Windows、iOS 和 Linux 版本。如果您覺得 FluidVoice 有用,不妨在 GitHub 上為專案點星,這有助於提升可見性和持續開發。