新的数据库类别——预测数据库
Aito.ai 提出了一种新的数据库类别——预测数据库,无需训练步骤即可直接进行预测查询,极大降低了机器学习在结构化数据上的使用门槛。
Aito.ai 近日重新发布了一篇关于预测数据库的文章,该概念最初于2019年提出,并在2026年进行了更新。文章指出,机器学习在结构化数据上的应用可以变得极为便捷,甚至无需传统的训练步骤。用户可以通过一个简单的 JSON 查询来实现预测、推荐等功能,例如以下代码可以预测顾客的下一次购买商品:
{
"from": "purchases",
"where": {
"customer": "[email protected]"
},
"predict": "productIds",
"exclusiveness": false
}这样的查询在工作流程上与传统数据库操作无异,但其背后集成了强大的推理能力。文章以杂货店为例,展示了如何利用预测数据库实现购物车自动填充、个性化搜索等功能。例如,在个性化搜索中,系统会根据顾客的购买历史,优先展示无乳糖产品给乳糖不耐受的顾客。
技术层面上,预测数据库的核心在于列式推理。它将模型构建深度集成到数据库引擎中,使得每次查询时都能在毫秒级内创建并应用统计模型。这意味着没有单独的“训练”阶段——工作负载从定期的批处理转移到了数据库内部,从而简化了系统架构并加速了迭代。
这种方法的优势在冷启动场景中尤为明显。由于数据库依赖内置的贝叶斯先验(如列分布、跨列相关性等),即使在没有历史数据的情况下也能给出合理的预测。文章引用了一个多租户发票路由基准测试:Aito 的预测准确率达到49.5%,而经过超参数调优的 LightGBM 和随机森林分别只有33.4%和28.9%。在最具挑战性的处理器预测任务中(每个公司约63个候选),Aito 在冷启动时仍能达到11%的准确率,是 LightGBM 的4倍以上。
每个预测都带有置信度分数,这基于对实际数据的贝叶斯推理。当统计证据充分时,置信度较高;数据模糊时,置信度降低,系统会如实反映。这种校准机制使得预测结果可以安全地用于自动化决策。
文章认为,预测数据库将改变预测在软件中的使用方式。当预测从“项目”变为“查询”时,经济性发生了根本改变——现在可以在内部工具、原型、最小可行产品甚至小产品中轻松添加预测功能。目前,已有四家客户在生产环境中使用 Aito,分别应用于发票自动化、零售价格估算和金融交易分类。
Aito 是第一个专为整个预测数据库类别打造的产品,其概念源于 MIT 的 BayesDB/BayesLite,但 Aito 是第一个在生产级别实现完整功能的系统。它提供按固定费率计费的方案和免费沙箱层。感兴趣的读者可以访问 demo.aito.ai 体验实时演示,或查阅文档深入了解。