Siri AIをゼロから再構築し、オープンソース化しました
OpenDexは、音声ファーストのオープンソースデスクトップAIアシスタントです。複数のモデル(ローカルのApple Intelligenceを含む)、オフライン実行、プラグイン可能な音声コンポーネント、フルインターフェーステーマをサポートします。Jarvis HUDのような映画的なインターフェースと、権限ゲートによるエージェントスキル(コンピューター制御も可能)を提供します。
開発者のwassghaは、OpenDexというオープンソースのデスクトップアプリケーションをリリースしました。これは、アイアンマンのJarvisのような音声アシスタントを実現することを目指しており、ゼロから構築され、MITライセンスでGitHubに公開されています。
OpenDexの核となるのは、音声ファーストのインタラクションループです。ユーザーがウェイクワードを話すか、プッシュトゥトークボタンを押すと、音声認識が行われ、テキストが大規模言語モデル(LLM)に送信され、モデルはツールを使用して思考し、最後にテキスト読み上げ(TTS)で回答を出力します。このプロセスは自然なフォローアップ質問をサポートし、オプションで割り込みも可能です。
モデルの選択肢は豊富です。Apple Intelligenceを搭載したMacでは、デバイス上で完全に動作し、APIキーは不要です。ユーザーは独自のOpenAIやAnthropicキーを使用することも、Vercel AI Gatewayを介して1つのキーでClaude、GPT、Geminiなどの複数のモデルにアクセスすることもできます。将来的には、サインインしてキー不要でクラウド同期が可能なホスティングサブスクリプションも計画されています。
音声コンポーネントはすべてプラグイン可能です。ウェイクワードはプッシュトゥトーク、Vosk、Web Speechから選択可能。音声認識はローカルのWhisper/Vosk(無料オフライン)またはOpenAI Whisper、音声合成はシステム音声またはElevenLabsを使用できます。これらを自由に組み合わせることで、データが外部に漏れることなく、完全にローカルで動作させることが可能です。
OpenDexのインターフェースはテーマ化されており、Jarvis HUD(アニメーションするアークリアクター付き)、ミニマルな「Talking Dot」、ターミナル風の「Typing Cursor」など、複数のビジュアルスタイルが用意されています。テーマは音声の状態に応じて変化します。
エージェントスキルには権限ゲートが実装されています。モデルが機密操作(アプリの起動やコンピューター制御など)を実行しようとすると、OpenDexは一時停止し、ユーザーに確認ダイアログを表示します。「1回許可」「常に許可」「拒否」の選択肢があり、選択内容は記憶され、次回以降自動的に処理されます。コンピューター制御機能はデフォルトでオフになっており、有効にするにはシステム設定で画面収録とアクセシビリティの権限を手動で付与する必要があります。
プロジェクトは活発に開発が進められており、10のリリースがあり、最新版は1.1.7です。今後の計画には、MCPサーバーのサポート、シェルやファイルシステムなどの追加スキル、自動更新などが含まれています。技術スタックはElectron、React 19、Tailwind CSS 4、Vercel AI SDK v6に基づいており、すべてのローカル音声エンジンはWASMで実装され、唯一のネイティブモジュールはコンピューター制御用のnut.jsです。
OpenDexの完全なビルド手順とインストール方法はGitHubで公開されており、Node.js 20+とpnpmが必要です。初回起動時には、モデル、音声、テーマなどを選択するセットアップウィザードが表示され、後で設定からいつでも変更できます。