新的資料庫類別——預測資料庫
Aito.ai 提出了一種新的資料庫類別——預測資料庫,無需訓練步驟即可直接進行預測查詢,極大降低了機器學習在結構化資料上的使用門檻。
Aito.ai 近日重新發布了一篇關於預測資料庫的文章,該概念最初於2019年提出,並在2026年進行了更新。文章指出,機器學習在結構化資料上的應用可以變得極為便捷,甚至無需傳統的訓練步驟。使用者可以透過一個簡單的 JSON 查詢來實現預測、推薦等功能,例如以下程式碼可以預測顧客的下一次購買商品:
{
"from": "purchases",
"where": {
"customer": "[email protected]"
},
"predict": "productIds",
"exclusiveness": false
}這樣的查詢在工作流程上與傳統資料庫操作無異,但其背後整合了強大的推理能力。文章以雜貨店為例,展示瞭如何利用預測資料庫實現購物車自動填充、個性化搜尋等功能。例如,在個性化搜尋中,系統會根據顧客的購買歷史,優先展示無乳糖產品給乳糖不耐受的顧客。
技術層面上,預測資料庫的核心在於列式推理。它將模型構建深度整合到資料庫引擎中,使得每次查詢時都能在毫秒級內建立並應用統計模型。這意味著沒有單獨的“訓練”階段——工作負載從定期的批處理轉移到了資料庫內部,從而簡化了系統架構並加速了迭代。
這種方法的優勢在冷啟動場景中尤為明顯。由於資料庫依賴內建的貝葉斯先驗(如列分佈、跨列相關性等),即使在沒有歷史資料的情況下也能給出合理的預測。文章引用了一個多租戶發票路由基準測試:Aito 的預測準確率達到49.5%,而經過超引數調優的 LightGBM 和隨機森林分別只有33.4%和28.9%。在最具挑戰性的處理器預測任務中(每個公司約63個候選),Aito 在冷啟動時仍能達到11%的準確率,是 LightGBM 的4倍以上。
每個預測都帶有置信度分數,這基於對實際資料的貝葉斯推理。當統計證據充分時,置信度較高;資料模糊時,置信度降低,系統會如實反映。這種校準機制使得預測結果可以安全地用於自動化決策。
文章認為,預測資料庫將改變預測在軟體中的使用方式。當預測從“專案”變為“查詢”時,經濟性發生了根本改變——現在可以在內部工具、原型、最小可行產品甚至小產品中輕鬆新增預測功能。目前,已有四家客戶在生產環境中使用 Aito,分別應用於發票自動化、零售價格估算和金融交易分類。
Aito 是第一個專為整個預測資料庫類別打造的產品,其概念源於 MIT 的 BayesDB/BayesLite,但 Aito 是第一個在生產級別實現完整功能的系統。它提供按固定費率計費的方案和免費沙箱層。感興趣的讀者可以訪問 demo.aito.ai 體驗即時演示,或查閱文件深入瞭解。