FluidVoice - 開源 macOS 語音轉文字聽寫應用,支持本地 AI
FluidVoice 是一款面向 macOS 的開源語音聽寫應用,提供本地 AI 增強的語音轉文字功能。它支持多種語音模型、命令模式、寫入模式等,所有處理均在設備本地完成,確保隱私安全。最新 1.6.0 版本引入了超低延遲的 Parakeet 引擎和 Fluid Intelligence 本地 AI 增強模塊。
FluidVoice 是一款專為 macOS 設計的開源語音轉文字聽寫應用,致力於在設備本地提供高效、私密的語音識別體驗。該項目基於 GPLv3 協議免費開源,用户可通過 Homebrew 輕鬆安裝:brew install --cask fluidvoice,或從 GitHub 發佈頁面手動下載。
最新版本 1.6.0 亮點
1.6.0 版本帶來了多項重大改進:
- 超快 Parakeet 引擎:重新實現的 Parakeet 語音識別模型幾乎消除了説話與文字顯示之間的延遲。
- Fluid Intelligence:完全本地的 AI 模型,用於設備端聽寫增強,無需雲端或 API 密鑰,數據不離開 Mac。
- 更好的主題:自適應淺色/深色主題,配有緊湊工具欄切換器。
- 煥然一新的引導流程:一次設置即可完成語言優先的語音引擎選擇、真實聽寫試用和 AI 增強配置。
值得注意的是,官方提示:“基於早期反饋,Fluid Intelligence 可能會讓您取消訂閲其他聽寫應用並節省開支。”
核心功能
FluidVoice 提供豐富的功能集,滿足不同用户需求:
- 命令模式:通過語音控制 Mac,啓動應用、運行快捷指令、觸發系統操作或自動化工作流,無需鍵盤。
- 寫入模式:在任何應用的文本框中直接寫入或改寫文本。選中文字後可通過語音重新編寫,或內聯聽寫新內容。
- 實時預覽:轉錄內容以覆蓋層形式實時顯示,支持 MacBook 劉海屏適配。
- 多種語音模型:支持 Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe、Apple Speech 以及 Whisper(包括 Tiny、Base、Small、Medium、Large 等多種尺寸)。用户可根據語言和延遲需求自由選擇。
- AI 增強:可選的後處理功能,支持 OpenAI、Groq、自定義提供商或本地 Fluid Intelligence,以獲得更乾淨、更準確的轉錄結果。
- 音頻歷史:可選的本地錄音歷史記錄,支持預算控制和 ZIP 導出,方便回顧過往聽寫內容。
- 今日使用統計:通過統計卡片和工具欄小圓點一目瞭然地查看每日使用情況。
- 自適應主題:跟隨系統自動切換淺色/深色主題,並可通過工具欄快速切換。
- 全局熱鍵:從任意位置即時啓動語音捕獲,無需切換應用。
- 智能輸入:通過無障礙 API 將文字直接插入任何應用,實現可靠、跨應用的文本輸入。
- 菜單欄集成:從菜單欄快速訪問、查看狀態和設置。
- 自動更新:無縫更新,可選加入 Beta 頻道提前體驗新功能。
- 按應用配置:為不同應用分配不同的提示集,使聽寫自動適應當前工作環境。
- 本地優先:除非用户明確選擇雲端 AI 提供商,否則語音和文本絕不離開設備。
- 最快的 Parakeet 實現:提供 macOS 上最原生的 Parakeet 實現,近乎實時的轉錄和最低延遲。
- 可配置覆蓋層:從藥丸形狀到大型覆蓋層,用户可自由選擇實時預覽的顯示方式,也可保持最小化。
- 所有功能可選:AI 增強、Fluid Intelligence、音頻歷史、分析和 Beta 版本均為可選項。核心聽寫開箱即用,僅需權限和熱鍵設置。
支持的模型與語言
FluidVoice 支持從零下載的 Apple Speech(適用於 Apple Silicon 和 Intel)到高精度的 Nemotron 和 Whisper 等多種模型。例如:
- Nemotron Speech 3.5:超快低延遲,支持約 40 種語言,適合流式多語言聽寫。
- Parakeet TDT v3:快速默認多語言聽寫,支持 25 種語言。
- Cohere Transcribe:高精度多語言聽寫,支持 14 種語言。
- Whisper:廣泛兼容性,支持最多 99 種語言。
所有模型均適用於 Apple Silicon Mac;Intel Mac 可通過 Whisper 模型(1.5.1 以上)使用。
快速開始
- 通過 Homebrew 安裝或下載最新發布版。
- 授予麥克風和輔助功能權限(聽寫和輸入其他應用必需)。
- 在設置中選定全局熱鍵,以便從任何位置觸發語音捕獲。
- 按照引導流程選擇語音模型、進行真實聽寫試用,並可選設置 AI 增強。
- (可選)啓用 Fluid Intelligence,下載本地 AI 模型以進行設備端增強。
- (可選)添加 OpenAI、Groq 或自定義提供商 API 密鑰,用於雲端增強(密鑰安全存儲在 macOS 鑰匙串中)。
隱私與安全
FluidVoice 堅持本地優先原則。用户的語音、音頻和轉錄文本在未明確選擇雲端 AI 提供商的情況下絕不離開設備。匿名分析默認開啓(僅包括應用版本、macOS 版本、功能標誌等低級信息),用户可隨時在設置中關閉。不收集語音、轉錄文本、個人數據或私密信息。
社區與貢獻
FluidVoice 擁有活躍的社區,用户可通過 Discord 參與討論,並在 X(Twitter)上關注 @ALTIC_DEV 瞭解開發動態。項目歡迎貢獻,鼓勵在提交拉取請求前先創建 issue 討論重大變更。開發環境基於 Xcode,依賴通過 Swift Package Manager 管理。
許可與未來
從 2026 年 2 月 23 日起,項目採用 GPLv3 許可;此前版本為 Apache License 2.0。開發團隊計劃未來推出 Windows、iOS 和 Linux 版本。如果您覺得 FluidVoice 有用,不妨在 GitHub 上為項目點星,這有助於提升可見性和持續開發。