AI News HubLIVE
站內改寫1 分鐘閱讀

Show HN: GalaxDB – 開源AI原生資料庫(OLTP+向量+版本管理)

GalaxDB 是一個開源的 AI 原生資料庫,將關係型資料庫、向量資料庫、嵌入 API、物件儲存和資料管道整合為一個二進位制檔案,支援 PostgreSQL 協議。它提供語義搜尋、時態查詢、訓練資料匯出等功能,效能優於傳統方案。

來源Hacker News AI作者: galaxdb

GalaxDB 是一款開源的 AI 原生資料庫,由 Zentrix Innovative Labs 構建,旨在簡化 AI 應用的資料基礎設施。傳統上,AI 應用需要整合關聯式資料庫、向量資料庫、嵌入 API、物件儲存和資料管道等多個獨立服務,而 GalaxDB 將所有這些功能整合到一個二進位制檔案中,並透過 PostgreSQL 線協議提供統一的 SQL 介面。其服務端二進位制檔案僅 7.9 MB,側車程序 7.6 MB,輕量高效。

GalaxDB 的核心特性包括:

  • 語義搜尋:透過 SEMANTIC_MATCH 函式直接在 SQL 中執行向量相似性搜尋,無需外部嵌入 API 或獨立向量資料庫。支援自定義模型和維度。
  • 版本管理與時態查詢:使用 CREATE VERSION TAG ... FOR TRAINING 建立資料快照,並透過 AT VERSION 查詢任意時間點的資料狀態,便於審計和機器學習訓練。
  • 訓練資料匯出:快照可匯出為 Lance 格式的資料集,支援零複製載入到 PyTorch,適合 ML 訓練管道。
  • 近重複去重:內建 MinHash LSH 演算法,可減少訓練資料集大小 15–30%。
  • 高效能儲存引擎:基於 LSM 樹、WAL 和 PAX 塊,讀取延遲低至 3 µs(p50),掃描吞吐量達 4.49 GB/s,遠優於 PostgreSQL 和 RocksDB。
  • 加密與金鑰管理:支援 AES-256-GCM 靜態加密,提供本地檔案、環境變數、AWS KMS 或 HashiCorp Vault 等多種金鑰提供方式。

GalaxDB 提供兩種部署模式:嵌入式模式(類似 SQLite)和服務端模式(支援多客戶端)。Python 客戶端可透過 pip 安裝,支援 Linux、macOS 和 Windows。此外,還提供 Homebrew、Docker 及 Rust 嵌入式庫。

效能方面,在 AWS c6id.4xlarge 例項上,HNSW 向量搜尋在 SIFT-1M 資料集上達到 0.990 的召回率(ef_search=200),延遲僅 459 µs。寫入 TPS 達 258,555,遠超 PostgreSQL 和 RocksDB。

GalaxDB 目前處於 beta 階段,已在 GitHub 開源(Apache 2.0 許可)。未來路線圖包括 SCRAM-SHA-256 身份認證、TLS 傳輸加密以及角色許可權管理。專案主頁提供了詳細的文件、基準測試和對比分析。