Databricks 數據與 AI 峯會 2026 後的思考:數據層為何再次重要
作者認為數據層是 AI 棧中被市場低估的關鍵部分,但隨着 AI 進入生產階段,這一現狀將改變。AI 智能體暴露了數據管道的缺陷,Databricks 的方向正確但架構尚未完善。文章探討了數據層在 AI 時代的重要性,以及未來 AI 原生數據系統的必備特性。
在今年的 Databricks 數據與 AI 峯會後,我的思考重點並非某個單一發布,而是一個縈繞已久的問題:當 AI 真正投入生產時,數據層會變成什麼?我的答案是:在這個週期中,數據層是 AI 棧中被重新定價最慢的部分,但這種情況正在改變。
數據層是 AI 棧中市場尚未定價的部分。算法已經在公開市場上被重新定價,模型改進迅速,計算資源也被英偉達、雲服務商和資本市場重新定價。但數據的變化更慢,並非因為它不重要,恰恰相反——數據難以重新定價是因為它難以討論且更難修復。企業數據混亂、分散、重複、過時,且充滿無人完全理解的權限。業務語義在不同系統間無法對齊,所謂的“實時”往往還是昨晚運行的計劃作業。這些工作痛苦且不光彩,但一旦 AI 從演示進入生產,這種痛苦就無法隱藏。在 OpenAI 和 Anthropic 等模型公司的對話中,討論常回到同一個點:模型正在收斂,計算資源只要有錢就能買到,而可防禦的層逐漸成為數據本身——它的質量、新鮮度、權限以及轉化為有用上下文的速度。這不僅是應用層的問題,模型質量仍高度依賴數據管道,一次訓練運行可能需要數天準備,上游字段髒亂或批次標記錯誤可能導致數天的計算付諸東流。
AI 智能體使數據問題無法隱藏。智能體以操作化的形式暴露了相同的問題:當 AI 智能體在生產中失敗時,首要原因往往不是模型能力不足,而是模型基於錯誤上下文行動——無法訪問的記錄、過期的文檔、悄然變化的數據源或過於昂貴的檢索路徑。作者最近看到一個優秀團隊因為陳舊的上下文管道浪費了將近一週時間。智能體自信地回答了昨天的問題,而系統無法證明錯誤何時進入循環。下一個基礎設施瓶頸不僅是更好的推理,而是模型或智能體決策時擁有新鮮、可信、廉價且可審計的上下文。
Databricks 瞄準了正確的問題。作者對許多自稱“AI 數據平台”的產品持懷疑態度,但 Databricks 值得認真對待。峯會上兩件事令人印象深刻:首先是工程文化——創始人仍在談論執行引擎、事務、實時分析等底層管道,產品直覺仍為核心;其次是客户基礎——用户並非將 AI 視為演示層,而是試圖將其推入生產系統,問題具體:智能體需要讀寫業務狀態,實時分析無法持續支付數據移動成本,管道需更加自主,智能體行為需在運行時得到治理。因此,Lakebase、Lakehouse//RT、數據智能體和 AI 治理等發佈的方向正確:將事務更靠近湖,將實時分析拉回同一數據基礎,自動化更多管道,擴展治理範圍。數據庫正在擴展,不再僅是存儲和查詢數據的地方,而是成為事實、狀態、語義、治理和行動的基礎。
然而,地圖很好但尚未完成。作者看到三個不完整的領域。首先是湖基礎本身。以 Postgres 為起點是明智的,但 AI 時代的操作型系統需要事務、內存、向量、多模態數據、追蹤、分支、回滾和細粒度租户隔離。經典 Postgres 並非為雲原生分佈式規模或智能體設計,將 Postgres 更靠近對象存儲也不消除延遲問題,緩存穩定性是重大挑戰。其次是多模態數據。AI 應用消耗文本、圖像、音頻、視頻、嵌入、行為日誌和智能體追蹤,若這些數據仍位於核心地圖之外,最重要的 AI 數據資產就活在邊緣。最後是默認用户假設。產品表面仍假定人類用户,但智能體以不同方式使用數據庫——它在一個循環中運行:檢索上下文、做出決策、調用工具、寫入狀態、檢查策略並重復。每一步都可能需要審計,這是一個不同的數據庫工作負載。
當數據庫用户是智能體時,問題變得更廣泛:智能體如何在決策時獲得最新鮮、最可信、最低成本且最可審計的上下文?這不僅是查詢優化問題,而是跨存儲、索引、治理、血統、重放、成本控制和運行時策略執行的系統問題。數據系統不能再僅是一個智能系統,它必須更接近 AI 的操作系統。可審計性不能事後添加,調試和治理成為同一工作流。作者認為這種架構尚未被任何人完全解決。
最後,什麼是“AI 原生”?通過從真實智能體工作負載逆向推導,AI 原生數據系統必須做到:多模態數據成為一等公民,彈性從工作負載出發,多租户下沉到智能體級別,分支和回滾成為核心數據庫功能,追蹤和確定性重放成為強制要求。這些特性將定義下一代數據基礎設施。