2026-06-09站内改写2 分钟阅读更新: 2026-06-09

新的数据库类别——预测数据库

Aito.ai 提出了一种新的数据库类别——预测数据库，无需训练步骤即可直接进行预测查询，极大降低了机器学习在结构化数据上的使用门槛。

来源Hacker News AI作者: arauhala

Aito.ai 近日重新发布了一篇关于预测数据库的文章，该概念最初于2019年提出，并在2026年进行了更新。文章指出，机器学习在结构化数据上的应用可以变得极为便捷，甚至无需传统的训练步骤。用户可以通过一个简单的 JSON 查询来实现预测、推荐等功能，例如以下代码可以预测顾客的下一次购买商品：

{
  "from": "purchases",
  "where": {
    "customer": "[email protected]"
  },
  "predict": "productIds",
  "exclusiveness": false
}

这样的查询在工作流程上与传统数据库操作无异，但其背后集成了强大的推理能力。文章以杂货店为例，展示了如何利用预测数据库实现购物车自动填充、个性化搜索等功能。例如，在个性化搜索中，系统会根据顾客的购买历史，优先展示无乳糖产品给乳糖不耐受的顾客。

技术层面上，预测数据库的核心在于列式推理。它将模型构建深度集成到数据库引擎中，使得每次查询时都能在毫秒级内创建并应用统计模型。这意味着没有单独的“训练”阶段——工作负载从定期的批处理转移到了数据库内部，从而简化了系统架构并加速了迭代。

这种方法的优势在冷启动场景中尤为明显。由于数据库依赖内置的贝叶斯先验（如列分布、跨列相关性等），即使在没有历史数据的情况下也能给出合理的预测。文章引用了一个多租户发票路由基准测试：Aito 的预测准确率达到49.5%，而经过超参数调优的 LightGBM 和随机森林分别只有33.4%和28.9%。在最具挑战性的处理器预测任务中（每个公司约63个候选），Aito 在冷启动时仍能达到11%的准确率，是 LightGBM 的4倍以上。

每个预测都带有置信度分数，这基于对实际数据的贝叶斯推理。当统计证据充分时，置信度较高；数据模糊时，置信度降低，系统会如实反映。这种校准机制使得预测结果可以安全地用于自动化决策。

文章认为，预测数据库将改变预测在软件中的使用方式。当预测从“项目”变为“查询”时，经济性发生了根本改变——现在可以在内部工具、原型、最小可行产品甚至小产品中轻松添加预测功能。目前，已有四家客户在生产环境中使用 Aito，分别应用于发票自动化、零售价格估算和金融交易分类。

Aito 是第一个专为整个预测数据库类别打造的产品，其概念源于 MIT 的 BayesDB/BayesLite，但 Aito 是第一个在生产级别实现完整功能的系统。它提供按固定费率计费的方案和免费沙箱层。感兴趣的读者可以访问 demo.aito.ai 体验实时演示，或查阅文档深入了解。