AI News HubLIVE
站内改写

我们构建了SmithDB:智能体可观测性的数据层

LangSmith推出SmithDB,这是专为智能体可观测性设计的分布式数据库,性能提升高达12倍,支持完全可移植性,适用于自托管和多云环境。

文章情报

工程师进阶

要点

  • SmithDB是专为智能体可观测性设计的分布式数据库,性能提升高达12倍。
  • 基于对象存储,支持无状态摄入和查询服务,易于部署在自托管和多云环境。
  • 支持智能体特定的查询模式,如随机访问、交互式过滤、全文搜索等。
  • 已全面用于LangSmith的US Cloud摄入和UI查询流量。

为什么重要

这条新闻值得关注,因为SmithDB是专为智能体可观测性设计的分布式数据库,性能提升高达12倍。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

LangSmith今日宣布推出SmithDB,这是一个专为智能体可观测性和评估工作负载构建的数据层。SmithDB旨在解决传统可观测性存储无法应对的现代智能体追踪数据挑战。

智能体追踪数据已大幅增长:现代智能体追踪包含数百个嵌套跨度、多模态内容以及持续数小时的跨度,导致数据量和查询模式远超通用数据库的设计能力。SmithDB通过行业领先的性能应对这些挑战:追踪树加载P50延迟92毫秒,全文搜索400毫秒,运行过滤82毫秒,使核心LangSmith体验速度提升高达12倍。

SmithDB采用Rust构建,基于Apache DataFusion查询引擎和Vortex文件工具包,并根据LangSmith独特工作负载进行了大量定制。其架构包括三个核心组件:对象存储用于持久化追踪数据、小型Postgres元存储用于段元数据、以及无状态摄入、查询和压缩服务。这种设计使SmithDB无需管理本地磁盘,通过增加计算即可扩展,特别适合自托管和多云环境。

在工程实现上,SmithDB作为基于对象存储的日志结构合并树(LSM)运行,包含摄入服务、元存储、查询服务、压缩服务和集群管理器等组件。关键优化包括:渐进式查询减少数据扫描量、直接从摄入节点读取最新数据、处理运行的多事件序列、按时间分层压缩以提高写入和查询效率、通过删除向量实现高效变更、以及延迟实例化大字段以加速常见查询。

目前,SmithDB已全面处理US Cloud的摄入和UI查询流量,包括线程、元数据过滤、反馈、文本搜索等所有主要功能。产品集成如运行规则、批量导出和实验正在接近完成。早期客户反馈积极,Clay、Vanta、Unify和Cogent等团队表示性能提升显著,使搜索、调试和分析大规模追踪数据更加高效。

未来,LangSmith计划将SmithDB扩展到所有相关产品表面,并支持自托管部署。SmithDB的推出标志着智能体可观测性领域的一大进步,为开发者提供了更快速、更灵活的工具来优化生产环境中的智能体。