為什麼前沿生態系統必須開放——Databricks的Matei Zaharia和Reynold Xin
在罕見的雙重採訪中,Databricks技術領袖探討了每家公司構建代理雲所需的條件,包括Omnigent元框架、LTAP數據庫架構以及企業代理的操作系統願景。
在2026年Data + AI Summit上,Databricks的聯合創始人Matei Zaharia和Reynold Xin接受了獨家採訪,深入探討了公司如何從湖倉一體轉型為面向AI代理時代的完整操作系統。兩位技術領袖強調,隨着前沿模型性能逐漸商品化,企業的持久競爭優勢將不再僅僅依賴於模型本身,而是來自圍繞模型的專有數據、受控訪問、運營狀態、事務日誌、工作流和反饋循環。這正是Databricks全力押注的方向。
採訪的核心之一是Omnigent——Databricks開源的元框架,旨在解決AI代理面臨的一系列通用問題:可移植性、協作、會話歷史、安全性、成本控制以及跨不同代理平台(如Claude Code、Codex、Cursor等)的統一管理。Matei解釋了為什麼編碼代理和企業定製代理需要相同的基礎設施:兩者都需要持久會話、雲沙箱、共享、搜索和協作能力。Omnigent提供了一個通用API來管理會話、文件、流、工具調用和取消操作,使得開發者可以自由地在不同模型和代理框架之間切換,而無需重寫底層邏輯。
另一個重磅發佈是LTAP(延遲-事務-分析-處理),這是Databricks對傳統數據庫堆棧的重新思考。Reynold指出,傳統的OLTP和OLAP分離導致了數據管道的脆弱性(甚至被戲稱為“持續數據損壞”),而HTAP雖然被譽為數據庫工程的聖盃,但在工程實現上極其複雜。LTAP通過統一存儲層(例如Parquet)來避免引擎層面的複雜性,從而獲得HTAP的大部分優勢。這一架構使得AI代理能夠直接訪問實時事務數據,而不是僅依賴事後遙測數據,從而做出更及時、精準的決策。
採訪還深入討論了代理安全的重要性。Matei強調,代理需要上下文感知和狀態化的安全策略,以防止代理意外讀取機密文檔、安裝惡意包或泄露數據。同時,支出控制也至關重要——一個失控的代理可能在幾分鐘內消耗500美元來讀取日誌文件。Databricks通過在Omnigent中內置安全層和成本控制機制來應對這些挑戰。
此外,Reynold和Matei還分享了Databricks在基礎設施規模上的驚人數據:每天運行5000萬到6000萬個虛擬機,處理艾字節級別的數據。他們討論了快速原型開發文化,如何從50人的小規模聚會發展到10萬人參與的全球社區。對於傳統軟件的未來,他們大膽預測:一旦數據被正確組織並暴露給AI代理,代理將能夠重寫大部分傳統軟件的工作流——只需“把數據放好,上面加個代理”即可。
最後,他們談到了開源策略的重要性。Omnigent之所以開源,是為了促進整個生態系統的創新和互操作性。Databricks相信,開放格式和協作是保持前沿的關鍵,這也體現了他們與Snowflake等競爭對手的本質區別。採訪還涉及Mosaic模型策略、Genie數據科學代理、AI Runtime、RL微調等眾多技術細節,為AI工程師提供了豐富的實踐洞察。