AI News HubLIVE
站內改寫1 分鐘閱讀

Show HN: GalaxDB – 開源AI原生數據庫(OLTP+向量+版本管理)

GalaxDB 是一個開源的 AI 原生數據庫,將關係型數據庫、向量數據庫、嵌入 API、對象存儲和數據管道整合為一個二進制文件,支持 PostgreSQL 協議。它提供語義搜索、時態查詢、訓練數據導出等功能,性能優於傳統方案。

來源Hacker News AI作者: galaxdb

GalaxDB 是一款開源的 AI 原生數據庫,由 Zentrix Innovative Labs 構建,旨在簡化 AI 應用的數據基礎設施。傳統上,AI 應用需要集成關係數據庫、向量數據庫、嵌入 API、對象存儲和數據管道等多個獨立服務,而 GalaxDB 將所有這些功能整合到一個二進制文件中,並通過 PostgreSQL 線協議提供統一的 SQL 接口。其服務端二進制文件僅 7.9 MB,側車進程 7.6 MB,輕量高效。

GalaxDB 的核心特性包括:

  • 語義搜索:通過 SEMANTIC_MATCH 函數直接在 SQL 中執行向量相似性搜索,無需外部嵌入 API 或獨立向量數據庫。支持自定義模型和維度。
  • 版本管理與時態查詢:使用 CREATE VERSION TAG ... FOR TRAINING 創建數據快照,並通過 AT VERSION 查詢任意時間點的數據狀態,便於審計和機器學習訓練。
  • 訓練數據導出:快照可導出為 Lance 格式的數據集,支持零拷貝加載到 PyTorch,適合 ML 訓練管道。
  • 近重複去重:內置 MinHash LSH 算法,可減少訓練數據集大小 15–30%。
  • 高性能存儲引擎:基於 LSM 樹、WAL 和 PAX 塊,讀取延遲低至 3 µs(p50),掃描吞吐量達 4.49 GB/s,遠優於 PostgreSQL 和 RocksDB。
  • 加密與密鑰管理:支持 AES-256-GCM 靜態加密,提供本地文件、環境變量、AWS KMS 或 HashiCorp Vault 等多種密鑰提供方式。

GalaxDB 提供兩種部署模式:嵌入式模式(類似 SQLite)和服務端模式(支持多客户端)。Python 客户端可通過 pip 安裝,支持 Linux、macOS 和 Windows。此外,還提供 Homebrew、Docker 及 Rust 嵌入式庫。

性能方面,在 AWS c6id.4xlarge 實例上,HNSW 向量搜索在 SIFT-1M 數據集上達到 0.990 的召回率(ef_search=200),延遲僅 459 µs。寫入 TPS 達 258,555,遠超 PostgreSQL 和 RocksDB。

GalaxDB 目前處於 beta 階段,已在 GitHub 開源(Apache 2.0 許可)。未來路線圖包括 SCRAM-SHA-256 身份認證、TLS 傳輸加密以及角色權限管理。項目主頁提供了詳細的文檔、基準測試和對比分析。

Show HN: GalaxDB – 開源AI原生數據庫(OLTP+向量+版本管理) | AI News Hub