AI News HubLIVE
サイト内リライト2 分で読了

Show HN: GalaxDB – オープンソースのAIネイティブデータベース(OLTP+ベクトル+バージョニング)

GalaxDB は、リレーショナルデータベース、ベクトルデータベース、埋め込みAPI、オブジェクトストレージ、データパイプラインを単一のバイナリに統合したオープンソースのAIネイティブデータベースです。PostgreSQLワイヤプロトコルを話し、セマンティック検索、バージョンスナップショット、トレーニングデータエクスポートなどの機能を提供します。

ソースHacker News AI著者: galaxdb

GalaxDB は、Zentrix Innovative Labs が開発したオープンソースのAIネイティブデータベースです。従来、AIアプリケーションはリレーショナルデータベース、ベクトルデータベース、埋め込みAPI、オブジェクトストレージ、データパイプラインなど複数のサービスを組み合わせる必要がありましたが、GalaxDB はこれらすべてを単一のバイナリに統合し、PostgreSQLワイヤプロトコルを介して統一されたSQLインターフェースを提供します。サーバーバイナリは7.9 MB、サイドカーバイナリは7.6 MBと軽量です。

主な機能は以下の通りです。

  • セマンティック検索: SQL内で SEMANTIC_MATCH 関数を使用してベクトル類似性検索を実行。外部の埋め込みAPIや独立したベクトルデータベースは不要です。
  • バージョン管理とタイムトラベルクエリ: CREATE VERSION TAG ... FOR TRAINING でデータのスナップショットを作成し、AT VERSION で任意の時点のデータを再現。MLトレーニングの監査に役立ちます。
  • トレーニングデータエクスポート: スナップショットをLance形式のデータセットとしてエクスポートし、PyTorchでゼロコピーで読み込み可能。
  • ニアデュプリケート除去: MinHash LSH アルゴリズムを内蔵し、トレーニングデータセットのサイズを15~30%削減。
  • 高性能ストレージエンジン: LSMツリー、WAL、PAXブロックに基づき、読み取りレイテンシはp50で3 µs、スループットは4.49 GB/s。PostgreSQLやRocksDBを上回ります。
  • 暗号化と鍵管理: AES-256-GCMによる保存データの暗号化をサポート。鍵プロバイダはローカルファイル、環境変数、AWS KMS、HashiCorp Vaultなどから選択可能。

GalaxDB は組み込みモード(SQLite と同様)とサーバーモード(マルチクライアント対応)の2つのデプロイ形態を提供します。Pythonクライアントはpipでインストールでき、Linux、macOS、Windowsをサポート。Homebrew、Docker、Rust組み込みライブラリも利用可能です。

パフォーマンス面では、AWS c6id.4xlarge インスタンス上で、HNSWベクトル検索はSIFT-1Mデータセットで再現率0.990(ef_search=200)、レイテンシ459 µsを達成。書き込みTPSは258,555で、PostgreSQLやRocksDBを大きく上回ります。

GalaxDB は現在ベータ版で、GitHub で Apache 2.0 ライセンスのもと公開されています。今後のロードマップには、SCRAM-SHA-256 認証、TLS トランスポート暗号化、ロールベースの権限管理が含まれています。プロジェクトページでは、詳細なドキュメント、ベンチマーク、比較分析が提供されています。

Show HN: GalaxDB – オープンソースのAIネイティブデータベース(OLTP+ベクトル+バージョニング) | AI News Hub