AI News HubLIVE
站内改写2 分钟阅读

我从零重建了Siri AI并开源

OpenDex是一款开源的桌面AI助手,采用语音优先的交互方式,支持多种模型(包括本地Apple Intelligence)、离线运行、插件化语音组件以及全界面主题。它提供Jarvis HUD等炫酷界面,并且具备权限控制的代理技能,甚至可以控制电脑。

来源Hacker News AI作者: wassimgr

开发者wassgha近日发布了一款名为OpenDex的开源桌面应用程序,旨在打造类似钢铁侠中Jarvis的语音助手体验。该项目从零构建,采用MIT许可证,代码已托管至GitHub。

OpenDex的核心是一个语音优先的交互循环:用户说出唤醒词或按下通话键,应用便会进行语音识别,将文本发送给大语言模型(LLM)进行思考,模型可以调用工具,最后通过文本转语音(TTS)输出回答。整个过程支持自然的后续提问,并且可以选配打断功能。

模型选择方面,OpenDex支持多种后端。在配备Apple Intelligence的Mac上,可以完全在设备上运行,无需任何API密钥。用户也可以使用自己的OpenAI或Anthropic密钥,或者通过Vercel AI Gateway用一个密钥接入Claude、GPT、Gemini等多种模型。未来还将推出托管的订阅服务,支持登录同步。

语音组件全部可插拔:唤醒词支持按键、Vosk或Web Speech;语音识别可以使用本地Whisper/Vosk(免费离线)或OpenAI Whisper;语音合成则可以使用系统自带语音或ElevenLabs。所有这些都可以自由组合,实现完全本地化、无数据外泄的运行。

OpenDex的界面为主题化设计,提供了多种视觉效果:Jarvis HUD风格带有动画弧形反应堆、极简的“说话点”以及终端风格的“打字光标”。主题会响应语音状态。

代理技能采用权限门控设计。当模型想要执行敏感操作(如打开应用、控制电脑)时,OpenDex会暂停并弹出对话框,用户可以选择“允许一次”、“始终允许”或“拒绝”。选择会被记住,下次自动处理。其中计算机控制功能需要用户在系统设置中授予屏幕录制和辅助功能权限,默认关闭,需要手动开启。

项目目前处于积极开发阶段,已发布10个版本,最新版为1.1.7。未来计划包括支持MCP服务器、更多内置技能(如Shell、文件系统)以及自动更新等。技术栈基于Electron、React 19、Tailwind CSS 4和Vercel AI SDK v6,所有本地语音引擎均为WASM实现,唯一的原生模块是用于计算机控制的nut.js。

OpenDex的完整构建和安装说明已在GitHub上提供,要求Node.js 20+和pnpm。首次启动时会有一个简短的配置向导,引导用户选择模型、语音、主题等,之后也可以在设置中随时更改。

我从零重建了Siri AI并开源 | AI News Hub