Databricks 数据与 AI 峰会 2026 后的思考:数据层为何再次重要
作者认为数据层是 AI 栈中被市场低估的关键部分,但随着 AI 进入生产阶段,这一现状将改变。AI 智能体暴露了数据管道的缺陷,Databricks 的方向正确但架构尚未完善。文章探讨了数据层在 AI 时代的重要性,以及未来 AI 原生数据系统的必备特性。
在今年的 Databricks 数据与 AI 峰会后,我的思考重点并非某个单一发布,而是一个萦绕已久的问题:当 AI 真正投入生产时,数据层会变成什么?我的答案是:在这个周期中,数据层是 AI 栈中被重新定价最慢的部分,但这种情况正在改变。
数据层是 AI 栈中市场尚未定价的部分。算法已经在公开市场上被重新定价,模型改进迅速,计算资源也被英伟达、云服务商和资本市场重新定价。但数据的变化更慢,并非因为它不重要,恰恰相反——数据难以重新定价是因为它难以讨论且更难修复。企业数据混乱、分散、重复、过时,且充满无人完全理解的权限。业务语义在不同系统间无法对齐,所谓的“实时”往往还是昨晚运行的计划作业。这些工作痛苦且不光彩,但一旦 AI 从演示进入生产,这种痛苦就无法隐藏。在 OpenAI 和 Anthropic 等模型公司的对话中,讨论常回到同一个点:模型正在收敛,计算资源只要有钱就能买到,而可防御的层逐渐成为数据本身——它的质量、新鲜度、权限以及转化为有用上下文的速度。这不仅是应用层的问题,模型质量仍高度依赖数据管道,一次训练运行可能需要数天准备,上游字段脏乱或批次标记错误可能导致数天的计算付诸东流。
AI 智能体使数据问题无法隐藏。智能体以操作化的形式暴露了相同的问题:当 AI 智能体在生产中失败时,首要原因往往不是模型能力不足,而是模型基于错误上下文行动——无法访问的记录、过期的文档、悄然变化的数据源或过于昂贵的检索路径。作者最近看到一个优秀团队因为陈旧的上下文管道浪费了将近一周时间。智能体自信地回答了昨天的问题,而系统无法证明错误何时进入循环。下一个基础设施瓶颈不仅是更好的推理,而是模型或智能体决策时拥有新鲜、可信、廉价且可审计的上下文。
Databricks 瞄准了正确的问题。作者对许多自称“AI 数据平台”的产品持怀疑态度,但 Databricks 值得认真对待。峰会上两件事令人印象深刻:首先是工程文化——创始人仍在谈论执行引擎、事务、实时分析等底层管道,产品直觉仍为核心;其次是客户基础——用户并非将 AI 视为演示层,而是试图将其推入生产系统,问题具体:智能体需要读写业务状态,实时分析无法持续支付数据移动成本,管道需更加自主,智能体行为需在运行时得到治理。因此,Lakebase、Lakehouse//RT、数据智能体和 AI 治理等发布的方向正确:将事务更靠近湖,将实时分析拉回同一数据基础,自动化更多管道,扩展治理范围。数据库正在扩展,不再仅是存储和查询数据的地方,而是成为事实、状态、语义、治理和行动的基础。
然而,地图很好但尚未完成。作者看到三个不完整的领域。首先是湖基础本身。以 Postgres 为起点是明智的,但 AI 时代的操作型系统需要事务、内存、向量、多模态数据、追踪、分支、回滚和细粒度租户隔离。经典 Postgres 并非为云原生分布式规模或智能体设计,将 Postgres 更靠近对象存储也不消除延迟问题,缓存稳定性是重大挑战。其次是多模态数据。AI 应用消耗文本、图像、音频、视频、嵌入、行为日志和智能体追踪,若这些数据仍位于核心地图之外,最重要的 AI 数据资产就活在边缘。最后是默认用户假设。产品表面仍假定人类用户,但智能体以不同方式使用数据库——它在一个循环中运行:检索上下文、做出决策、调用工具、写入状态、检查策略并重复。每一步都可能需要审计,这是一个不同的数据库工作负载。
当数据库用户是智能体时,问题变得更广泛:智能体如何在决策时获得最新鲜、最可信、最低成本且最可审计的上下文?这不仅是查询优化问题,而是跨存储、索引、治理、血统、重放、成本控制和运行时策略执行的系统问题。数据系统不能再仅是一个智能系统,它必须更接近 AI 的操作系统。可审计性不能事后添加,调试和治理成为同一工作流。作者认为这种架构尚未被任何人完全解决。
最后,什么是“AI 原生”?通过从真实智能体工作负载逆向推导,AI 原生数据系统必须做到:多模态数据成为一等公民,弹性从工作负载出发,多租户下沉到智能体级别,分支和回滚成为核心数据库功能,追踪和确定性重放成为强制要求。这些特性将定义下一代数据基础设施。