新的數據庫類別——預測數據庫
Aito.ai 提出了一種新的數據庫類別——預測數據庫,無需訓練步驟即可直接進行預測查詢,極大降低了機器學習在結構化數據上的使用門檻。
Aito.ai 近日重新發布了一篇關於預測數據庫的文章,該概念最初於2019年提出,並在2026年進行了更新。文章指出,機器學習在結構化數據上的應用可以變得極為便捷,甚至無需傳統的訓練步驟。用户可以通過一個簡單的 JSON 查詢來實現預測、推薦等功能,例如以下代碼可以預測顧客的下一次購買商品:
{
"from": "purchases",
"where": {
"customer": "[email protected]"
},
"predict": "productIds",
"exclusiveness": false
}這樣的查詢在工作流程上與傳統數據庫操作無異,但其背後集成了強大的推理能力。文章以雜貨店為例,展示瞭如何利用預測數據庫實現購物車自動填充、個性化搜索等功能。例如,在個性化搜索中,系統會根據顧客的購買歷史,優先展示無乳糖產品給乳糖不耐受的顧客。
技術層面上,預測數據庫的核心在於列式推理。它將模型構建深度集成到數據庫引擎中,使得每次查詢時都能在毫秒級內創建並應用統計模型。這意味着沒有單獨的“訓練”階段——工作負載從定期的批處理轉移到了數據庫內部,從而簡化了系統架構並加速了迭代。
這種方法的優勢在冷啓動場景中尤為明顯。由於數據庫依賴內置的貝葉斯先驗(如列分佈、跨列相關性等),即使在沒有歷史數據的情況下也能給出合理的預測。文章引用了一個多租户發票路由基準測試:Aito 的預測準確率達到49.5%,而經過超參數調優的 LightGBM 和隨機森林分別只有33.4%和28.9%。在最具挑戰性的處理器預測任務中(每個公司約63個候選),Aito 在冷啓動時仍能達到11%的準確率,是 LightGBM 的4倍以上。
每個預測都帶有置信度分數,這基於對實際數據的貝葉斯推理。當統計證據充分時,置信度較高;數據模糊時,置信度降低,系統會如實反映。這種校準機制使得預測結果可以安全地用於自動化決策。
文章認為,預測數據庫將改變預測在軟件中的使用方式。當預測從“項目”變為“查詢”時,經濟性發生了根本改變——現在可以在內部工具、原型、最小可行產品甚至小產品中輕鬆添加預測功能。目前,已有四家客户在生產環境中使用 Aito,分別應用於發票自動化、零售價格估算和金融交易分類。
Aito 是第一個專為整個預測數據庫類別打造的產品,其概念源於 MIT 的 BayesDB/BayesLite,但 Aito 是第一個在生產級別實現完整功能的系統。它提供按固定費率計費的方案和免費沙箱層。感興趣的讀者可以訪問 demo.aito.ai 體驗實時演示,或查閲文檔深入瞭解。