AI News HubLIVE
站内改写1 分钟阅读

Show HN: GalaxDB – 开源AI原生数据库(OLTP+向量+版本管理)

GalaxDB 是一个开源的 AI 原生数据库,将关系型数据库、向量数据库、嵌入 API、对象存储和数据管道整合为一个二进制文件,支持 PostgreSQL 协议。它提供语义搜索、时态查询、训练数据导出等功能,性能优于传统方案。

来源Hacker News AI作者: galaxdb

GalaxDB 是一款开源的 AI 原生数据库,由 Zentrix Innovative Labs 构建,旨在简化 AI 应用的数据基础设施。传统上,AI 应用需要集成关系数据库、向量数据库、嵌入 API、对象存储和数据管道等多个独立服务,而 GalaxDB 将所有这些功能整合到一个二进制文件中,并通过 PostgreSQL 线协议提供统一的 SQL 接口。其服务端二进制文件仅 7.9 MB,侧车进程 7.6 MB,轻量高效。

GalaxDB 的核心特性包括:

  • 语义搜索:通过 SEMANTIC_MATCH 函数直接在 SQL 中执行向量相似性搜索,无需外部嵌入 API 或独立向量数据库。支持自定义模型和维度。
  • 版本管理与时态查询:使用 CREATE VERSION TAG ... FOR TRAINING 创建数据快照,并通过 AT VERSION 查询任意时间点的数据状态,便于审计和机器学习训练。
  • 训练数据导出:快照可导出为 Lance 格式的数据集,支持零拷贝加载到 PyTorch,适合 ML 训练管道。
  • 近重复去重:内置 MinHash LSH 算法,可减少训练数据集大小 15–30%。
  • 高性能存储引擎:基于 LSM 树、WAL 和 PAX 块,读取延迟低至 3 µs(p50),扫描吞吐量达 4.49 GB/s,远优于 PostgreSQL 和 RocksDB。
  • 加密与密钥管理:支持 AES-256-GCM 静态加密,提供本地文件、环境变量、AWS KMS 或 HashiCorp Vault 等多种密钥提供方式。

GalaxDB 提供两种部署模式:嵌入式模式(类似 SQLite)和服务端模式(支持多客户端)。Python 客户端可通过 pip 安装,支持 Linux、macOS 和 Windows。此外,还提供 Homebrew、Docker 及 Rust 嵌入式库。

性能方面,在 AWS c6id.4xlarge 实例上,HNSW 向量搜索在 SIFT-1M 数据集上达到 0.990 的召回率(ef_search=200),延迟仅 459 µs。写入 TPS 达 258,555,远超 PostgreSQL 和 RocksDB。

GalaxDB 目前处于 beta 阶段,已在 GitHub 开源(Apache 2.0 许可)。未来路线图包括 SCRAM-SHA-256 身份认证、TLS 传输加密以及角色权限管理。项目主页提供了详细的文档、基准测试和对比分析。