AI News HubLIVE
站內改寫2 分鐘閱讀

我從零重建了Siri AI並開源

OpenDex是一款開源的桌面AI助手,採用語音優先的互動方式,支援多種模型(包括本地Apple Intelligence)、離線執行、外掛化語音元件以及全介面主題。它提供Jarvis HUD等炫酷介面,並且具備許可權控制的代理技能,甚至可以控制電腦。

來源Hacker News AI作者: wassimgr

開發者wassgha近日釋出了一款名為OpenDex的開源桌面應用程式,旨在打造類似鋼鐵俠中Jarvis的語音助手體驗。該專案從零構建,採用MIT許可證,程式碼已託管至GitHub。

OpenDex的核心是一個語音優先的互動迴圈:使用者說出喚醒詞或按下通話鍵,應用便會進行語音識別,將文本傳送給大語言模型(LLM)進行思考,模型可以呼叫工具,最後透過文本轉語音(TTS)輸出回答。整個過程支援自然的後續提問,並且可以選配打斷功能。

模型選擇方面,OpenDex支援多種後端。在配備Apple Intelligence的Mac上,可以完全在裝置上執行,無需任何API金鑰。使用者也可以使用自己的OpenAI或Anthropic金鑰,或者透過Vercel AI Gateway用一個金鑰接入Claude、GPT、Gemini等多種模型。未來還將推出託管的訂閱服務,支援登入同步。

語音元件全部可插拔:喚醒詞支援按鍵、Vosk或Web Speech;語音識別可以使用本地Whisper/Vosk(免費離線)或OpenAI Whisper;語音合成則可以使用系統自帶語音或ElevenLabs。所有這些都可以自由組合,實現完全本地化、無資料外洩的執行。

OpenDex的介面為主題化設計,提供了多種視覺效果:Jarvis HUD風格帶有動畫弧形反應堆、極簡的“說話點”以及終端風格的“打字游標”。主題會響應語音狀態。

代理技能採用許可權門控設計。當模型想要執行敏感操作(如開啟應用、控制電腦)時,OpenDex會暫停並彈出對話方塊,使用者可以選擇“允許一次”、“始終允許”或“拒絕”。選擇會被記住,下次自動處理。其中計算機控制功能需要使用者在系統設定中授予螢幕錄製和輔助功能許可權,預設關閉,需要手動開啟。

專案目前處於積極開發階段,已釋出10個版本,最新版為1.1.7。未來計劃包括支援MCP伺服器、更多內建技能(如Shell、檔案系統)以及自動更新等。技術棧基於Electron、React 19、Tailwind CSS 4和Vercel AI SDK v6,所有本地語音引擎均為WASM實現,唯一的原生模組是用於計算機控制的nut.js。

OpenDex的完整構建和安裝說明已在GitHub上提供,要求Node.js 20+和pnpm。首次啟動時會有一個簡短的配置嚮導,引導使用者選擇模型、語音、主題等,之後也可以在設定中隨時更改。