Show HN: GalaxDB – 开源AI原生数据库(OLTP+向量+版本管理)
GalaxDB 是一个开源的 AI 原生数据库,将关系型数据库、向量数据库、嵌入 API、对象存储和数据管道整合为一个二进制文件,支持 PostgreSQL 协议。它提供语义搜索、时态查询、训练数据导出等功能,性能优于传统方案。
GalaxDB 是一款开源的 AI 原生数据库,由 Zentrix Innovative Labs 构建,旨在简化 AI 应用的数据基础设施。传统上,AI 应用需要集成关系数据库、向量数据库、嵌入 API、对象存储和数据管道等多个独立服务,而 GalaxDB 将所有这些功能整合到一个二进制文件中,并通过 PostgreSQL 线协议提供统一的 SQL 接口。其服务端二进制文件仅 7.9 MB,侧车进程 7.6 MB,轻量高效。
GalaxDB 的核心特性包括:
- 语义搜索:通过
SEMANTIC_MATCH函数直接在 SQL 中执行向量相似性搜索,无需外部嵌入 API 或独立向量数据库。支持自定义模型和维度。 - 版本管理与时态查询:使用
CREATE VERSION TAG ... FOR TRAINING创建数据快照,并通过AT VERSION查询任意时间点的数据状态,便于审计和机器学习训练。 - 训练数据导出:快照可导出为 Lance 格式的数据集,支持零拷贝加载到 PyTorch,适合 ML 训练管道。
- 近重复去重:内置 MinHash LSH 算法,可减少训练数据集大小 15–30%。
- 高性能存储引擎:基于 LSM 树、WAL 和 PAX 块,读取延迟低至 3 µs(p50),扫描吞吐量达 4.49 GB/s,远优于 PostgreSQL 和 RocksDB。
- 加密与密钥管理:支持 AES-256-GCM 静态加密,提供本地文件、环境变量、AWS KMS 或 HashiCorp Vault 等多种密钥提供方式。
GalaxDB 提供两种部署模式:嵌入式模式(类似 SQLite)和服务端模式(支持多客户端)。Python 客户端可通过 pip 安装,支持 Linux、macOS 和 Windows。此外,还提供 Homebrew、Docker 及 Rust 嵌入式库。
性能方面,在 AWS c6id.4xlarge 实例上,HNSW 向量搜索在 SIFT-1M 数据集上达到 0.990 的召回率(ef_search=200),延迟仅 459 µs。写入 TPS 达 258,555,远超 PostgreSQL 和 RocksDB。
GalaxDB 目前处于 beta 阶段,已在 GitHub 开源(Apache 2.0 许可)。未来路线图包括 SCRAM-SHA-256 身份认证、TLS 传输加密以及角色权限管理。项目主页提供了详细的文档、基准测试和对比分析。