Show HN: すべてのクローには顔が必要
Nyxclaw は、AI エージェントにリアルタイムの顔と音声を提供するオープンソースプロジェクトです。ローカルで実行され、GPU は不要。セルフホスト型サーバー、エンドツーエンド暗号化、2つの音声パイプライン(OpenAI Realtime とローカル CPU スタック)、ARKit ブレンドシェイプをサポートします。
Nyxclaw は、あらゆる AI エージェントにリアルタイムの顔と音声を提供するオープンソースプロジェクトです。このプロジェクトはユーザーのローカルマシン上で完全に動作し、GPU を必要としないため、データのプライバシーと自主管理を確保します。
Nyxclaw サーバーはセルフホスト型で、ユーザーのマシン上で稼働し、AI エージェントと暗号チャレンジ(Ed25519 認証)を用いてペアリングされます。Cloudflare Tunnel により自動プロビジョニングされたエンドツーエンドの WebSocket 暗号化通信を利用し、ポートフォワーディングや証明書管理は不要です。デバイスは QR コードスキャンでペアリングされ、一度に1台のみ接続可能で、コードはパスワードと同様に扱われます。
プロジェクトは2つのリファレンス音声パイプラインを提供します。OpenAI Realtime パイプラインはクラウド API を利用して最高の音声品質を実現しますが、API キーが必要です。ローカル CPU パイプラインは faster-whisper、Silero VAD、Piper VITS ONNX TTS を使用し、完全にオフラインで動作し、API キーや GPU は不要です。どちらのパイプラインも、CPU 上で Wav2Arkit ONNX モデルを実行し、ARKit の52のブレンドシェイプを毎秒30フレームで生成します。
Nyxclaw は現在、さまざまな AI エージェント(「クロー」と呼ばれる)をサポートしており、ユーザーはまだサポートされていないエージェントをリクエストすることもできます。コミュニティの参加を奨励し、クローのエコシステムを拡大することを目指しています。