Show HN: GalaxDB – 開源AI原生資料庫(OLTP+向量+版本管理)
GalaxDB 是一個開源的 AI 原生資料庫,將關係型資料庫、向量資料庫、嵌入 API、物件儲存和資料管道整合為一個二進位制檔案,支援 PostgreSQL 協議。它提供語義搜尋、時態查詢、訓練資料匯出等功能,效能優於傳統方案。
GalaxDB 是一款開源的 AI 原生資料庫,由 Zentrix Innovative Labs 構建,旨在簡化 AI 應用的資料基礎設施。傳統上,AI 應用需要整合關聯式資料庫、向量資料庫、嵌入 API、物件儲存和資料管道等多個獨立服務,而 GalaxDB 將所有這些功能整合到一個二進位制檔案中,並透過 PostgreSQL 線協議提供統一的 SQL 介面。其服務端二進位制檔案僅 7.9 MB,側車程序 7.6 MB,輕量高效。
GalaxDB 的核心特性包括:
- 語義搜尋:透過
SEMANTIC_MATCH函式直接在 SQL 中執行向量相似性搜尋,無需外部嵌入 API 或獨立向量資料庫。支援自定義模型和維度。 - 版本管理與時態查詢:使用
CREATE VERSION TAG ... FOR TRAINING建立資料快照,並透過AT VERSION查詢任意時間點的資料狀態,便於審計和機器學習訓練。 - 訓練資料匯出:快照可匯出為 Lance 格式的資料集,支援零複製載入到 PyTorch,適合 ML 訓練管道。
- 近重複去重:內建 MinHash LSH 演算法,可減少訓練資料集大小 15–30%。
- 高效能儲存引擎:基於 LSM 樹、WAL 和 PAX 塊,讀取延遲低至 3 µs(p50),掃描吞吐量達 4.49 GB/s,遠優於 PostgreSQL 和 RocksDB。
- 加密與金鑰管理:支援 AES-256-GCM 靜態加密,提供本地檔案、環境變數、AWS KMS 或 HashiCorp Vault 等多種金鑰提供方式。
GalaxDB 提供兩種部署模式:嵌入式模式(類似 SQLite)和服務端模式(支援多客戶端)。Python 客戶端可透過 pip 安裝,支援 Linux、macOS 和 Windows。此外,還提供 Homebrew、Docker 及 Rust 嵌入式庫。
效能方面,在 AWS c6id.4xlarge 例項上,HNSW 向量搜尋在 SIFT-1M 資料集上達到 0.990 的召回率(ef_search=200),延遲僅 459 µs。寫入 TPS 達 258,555,遠超 PostgreSQL 和 RocksDB。
GalaxDB 目前處於 beta 階段,已在 GitHub 開源(Apache 2.0 許可)。未來路線圖包括 SCRAM-SHA-256 身份認證、TLS 傳輸加密以及角色許可權管理。專案主頁提供了詳細的文件、基準測試和對比分析。