Show HN: GalaxDB – 開源AI原生數據庫(OLTP+向量+版本管理)
GalaxDB 是一個開源的 AI 原生數據庫,將關係型數據庫、向量數據庫、嵌入 API、對象存儲和數據管道整合為一個二進制文件,支持 PostgreSQL 協議。它提供語義搜索、時態查詢、訓練數據導出等功能,性能優於傳統方案。
GalaxDB 是一款開源的 AI 原生數據庫,由 Zentrix Innovative Labs 構建,旨在簡化 AI 應用的數據基礎設施。傳統上,AI 應用需要集成關係數據庫、向量數據庫、嵌入 API、對象存儲和數據管道等多個獨立服務,而 GalaxDB 將所有這些功能整合到一個二進制文件中,並通過 PostgreSQL 線協議提供統一的 SQL 接口。其服務端二進制文件僅 7.9 MB,側車進程 7.6 MB,輕量高效。
GalaxDB 的核心特性包括:
- 語義搜索:通過
SEMANTIC_MATCH函數直接在 SQL 中執行向量相似性搜索,無需外部嵌入 API 或獨立向量數據庫。支持自定義模型和維度。 - 版本管理與時態查詢:使用
CREATE VERSION TAG ... FOR TRAINING創建數據快照,並通過AT VERSION查詢任意時間點的數據狀態,便於審計和機器學習訓練。 - 訓練數據導出:快照可導出為 Lance 格式的數據集,支持零拷貝加載到 PyTorch,適合 ML 訓練管道。
- 近重複去重:內置 MinHash LSH 算法,可減少訓練數據集大小 15–30%。
- 高性能存儲引擎:基於 LSM 樹、WAL 和 PAX 塊,讀取延遲低至 3 µs(p50),掃描吞吐量達 4.49 GB/s,遠優於 PostgreSQL 和 RocksDB。
- 加密與密鑰管理:支持 AES-256-GCM 靜態加密,提供本地文件、環境變量、AWS KMS 或 HashiCorp Vault 等多種密鑰提供方式。
GalaxDB 提供兩種部署模式:嵌入式模式(類似 SQLite)和服務端模式(支持多客户端)。Python 客户端可通過 pip 安裝,支持 Linux、macOS 和 Windows。此外,還提供 Homebrew、Docker 及 Rust 嵌入式庫。
性能方面,在 AWS c6id.4xlarge 實例上,HNSW 向量搜索在 SIFT-1M 數據集上達到 0.990 的召回率(ef_search=200),延遲僅 459 µs。寫入 TPS 達 258,555,遠超 PostgreSQL 和 RocksDB。
GalaxDB 目前處於 beta 階段,已在 GitHub 開源(Apache 2.0 許可)。未來路線圖包括 SCRAM-SHA-256 身份認證、TLS 傳輸加密以及角色權限管理。項目主頁提供了詳細的文檔、基準測試和對比分析。