AI News HubLIVE
站内改写2 分钟阅读

为什么前沿生态系统必须开放——Databricks的Matei Zaharia和Reynold Xin

在罕见的双重采访中,Databricks技术领袖探讨了每家公司构建代理云所需的条件,包括Omnigent元框架、LTAP数据库架构以及企业代理的操作系统愿景。

在2026年Data + AI Summit上,Databricks的联合创始人Matei Zaharia和Reynold Xin接受了独家采访,深入探讨了公司如何从湖仓一体转型为面向AI代理时代的完整操作系统。两位技术领袖强调,随着前沿模型性能逐渐商品化,企业的持久竞争优势将不再仅仅依赖于模型本身,而是来自围绕模型的专有数据、受控访问、运营状态、事务日志、工作流和反馈循环。这正是Databricks全力押注的方向。

采访的核心之一是Omnigent——Databricks开源的元框架,旨在解决AI代理面临的一系列通用问题:可移植性、协作、会话历史、安全性、成本控制以及跨不同代理平台(如Claude Code、Codex、Cursor等)的统一管理。Matei解释了为什么编码代理和企业定制代理需要相同的基础设施:两者都需要持久会话、云沙箱、共享、搜索和协作能力。Omnigent提供了一个通用API来管理会话、文件、流、工具调用和取消操作,使得开发者可以自由地在不同模型和代理框架之间切换,而无需重写底层逻辑。

另一个重磅发布是LTAP(延迟-事务-分析-处理),这是Databricks对传统数据库堆栈的重新思考。Reynold指出,传统的OLTP和OLAP分离导致了数据管道的脆弱性(甚至被戏称为“持续数据损坏”),而HTAP虽然被誉为数据库工程的圣杯,但在工程实现上极其复杂。LTAP通过统一存储层(例如Parquet)来避免引擎层面的复杂性,从而获得HTAP的大部分优势。这一架构使得AI代理能够直接访问实时事务数据,而不是仅依赖事后遥测数据,从而做出更及时、精准的决策。

采访还深入讨论了代理安全的重要性。Matei强调,代理需要上下文感知和状态化的安全策略,以防止代理意外读取机密文档、安装恶意包或泄露数据。同时,支出控制也至关重要——一个失控的代理可能在几分钟内消耗500美元来读取日志文件。Databricks通过在Omnigent中内置安全层和成本控制机制来应对这些挑战。

此外,Reynold和Matei还分享了Databricks在基础设施规模上的惊人数据:每天运行5000万到6000万个虚拟机,处理艾字节级别的数据。他们讨论了快速原型开发文化,如何从50人的小规模聚会发展到10万人参与的全球社区。对于传统软件的未来,他们大胆预测:一旦数据被正确组织并暴露给AI代理,代理将能够重写大部分传统软件的工作流——只需“把数据放好,上面加个代理”即可。

最后,他们谈到了开源策略的重要性。Omnigent之所以开源,是为了促进整个生态系统的创新和互操作性。Databricks相信,开放格式和协作是保持前沿的关键,这也体现了他们与Snowflake等竞争对手的本质区别。采访还涉及Mosaic模型策略、Genie数据科学代理、AI Runtime、RL微调等众多技术细节,为AI工程师提供了丰富的实践洞察。

为什么前沿生态系统必须开放——Databricks的Matei Zaharia和Reynold Xin | AI News Hub