AI News HubLIVE
站内改写2 分鐘閱讀

新的數據庫類別——預測數據庫

Aito.ai 提出了一種新的數據庫類別——預測數據庫,無需訓練步驟即可直接進行預測查詢,極大降低了機器學習在結構化數據上的使用門檻。

來源Hacker News AI作者: arauhala

Aito.ai 近日重新發布了一篇關於預測數據庫的文章,該概念最初於2019年提出,並在2026年進行了更新。文章指出,機器學習在結構化數據上的應用可以變得極為便捷,甚至無需傳統的訓練步驟。用户可以通過一個簡單的 JSON 查詢來實現預測、推薦等功能,例如以下代碼可以預測顧客的下一次購買商品:

{
  "from": "purchases",
  "where": {
    "customer": "[email protected]"
  },
  "predict": "productIds",
  "exclusiveness": false
}

這樣的查詢在工作流程上與傳統數據庫操作無異,但其背後集成了強大的推理能力。文章以雜貨店為例,展示瞭如何利用預測數據庫實現購物車自動填充、個性化搜索等功能。例如,在個性化搜索中,系統會根據顧客的購買歷史,優先展示無乳糖產品給乳糖不耐受的顧客。

技術層面上,預測數據庫的核心在於列式推理。它將模型構建深度集成到數據庫引擎中,使得每次查詢時都能在毫秒級內創建並應用統計模型。這意味着沒有單獨的“訓練”階段——工作負載從定期的批處理轉移到了數據庫內部,從而簡化了系統架構並加速了迭代。

這種方法的優勢在冷啓動場景中尤為明顯。由於數據庫依賴內置的貝葉斯先驗(如列分佈、跨列相關性等),即使在沒有歷史數據的情況下也能給出合理的預測。文章引用了一個多租户發票路由基準測試:Aito 的預測準確率達到49.5%,而經過超參數調優的 LightGBM 和隨機森林分別只有33.4%和28.9%。在最具挑戰性的處理器預測任務中(每個公司約63個候選),Aito 在冷啓動時仍能達到11%的準確率,是 LightGBM 的4倍以上。

每個預測都帶有置信度分數,這基於對實際數據的貝葉斯推理。當統計證據充分時,置信度較高;數據模糊時,置信度降低,系統會如實反映。這種校準機制使得預測結果可以安全地用於自動化決策。

文章認為,預測數據庫將改變預測在軟件中的使用方式。當預測從“項目”變為“查詢”時,經濟性發生了根本改變——現在可以在內部工具、原型、最小可行產品甚至小產品中輕鬆添加預測功能。目前,已有四家客户在生產環境中使用 Aito,分別應用於發票自動化、零售價格估算和金融交易分類。

Aito 是第一個專為整個預測數據庫類別打造的產品,其概念源於 MIT 的 BayesDB/BayesLite,但 Aito 是第一個在生產級別實現完整功能的系統。它提供按固定費率計費的方案和免費沙箱層。感興趣的讀者可以訪問 demo.aito.ai 體驗實時演示,或查閲文檔深入瞭解。