AI News HubLIVE
站內改寫2 分鐘閱讀

我從零重建了Siri AI並開源

OpenDex是一款開源的桌面AI助手,採用語音優先的交互方式,支持多種模型(包括本地Apple Intelligence)、離線運行、插件化語音組件以及全界面主題。它提供Jarvis HUD等炫酷界面,並且具備權限控制的代理技能,甚至可以控制電腦。

來源Hacker News AI作者: wassimgr

開發者wassgha近日發佈了一款名為OpenDex的開源桌面應用程序,旨在打造類似鋼鐵俠中Jarvis的語音助手體驗。該項目從零構建,採用MIT許可證,代碼已託管至GitHub。

OpenDex的核心是一個語音優先的交互循環:用户説出喚醒詞或按下通話鍵,應用便會進行語音識別,將文本發送給大語言模型(LLM)進行思考,模型可以調用工具,最後通過文本轉語音(TTS)輸出回答。整個過程支持自然的後續提問,並且可以選配打斷功能。

模型選擇方面,OpenDex支持多種後端。在配備Apple Intelligence的Mac上,可以完全在設備上運行,無需任何API密鑰。用户也可以使用自己的OpenAI或Anthropic密鑰,或者通過Vercel AI Gateway用一個密鑰接入Claude、GPT、Gemini等多種模型。未來還將推出託管的訂閲服務,支持登錄同步。

語音組件全部可插拔:喚醒詞支持按鍵、Vosk或Web Speech;語音識別可以使用本地Whisper/Vosk(免費離線)或OpenAI Whisper;語音合成則可以使用系統自帶語音或ElevenLabs。所有這些都可以自由組合,實現完全本地化、無數據外泄的運行。

OpenDex的界面為主題化設計,提供了多種視覺效果:Jarvis HUD風格帶有動畫弧形反應堆、極簡的“説話點”以及終端風格的“打字光標”。主題會響應語音狀態。

代理技能採用權限門控設計。當模型想要執行敏感操作(如打開應用、控制電腦)時,OpenDex會暫停並彈出對話框,用户可以選擇“允許一次”、“始終允許”或“拒絕”。選擇會被記住,下次自動處理。其中計算機控制功能需要用户在系統設置中授予屏幕錄製和輔助功能權限,默認關閉,需要手動開啓。

項目目前處於積極開發階段,已發佈10個版本,最新版為1.1.7。未來計劃包括支持MCP服務器、更多內置技能(如Shell、文件系統)以及自動更新等。技術棧基於Electron、React 19、Tailwind CSS 4和Vercel AI SDK v6,所有本地語音引擎均為WASM實現,唯一的原生模塊是用於計算機控制的nut.js。

OpenDex的完整構建和安裝説明已在GitHub上提供,要求Node.js 20+和pnpm。首次啓動時會有一個簡短的配置嚮導,引導用户選擇模型、語音、主題等,之後也可以在設置中隨時更改。

我從零重建了Siri AI並開源 | AI News Hub