AI News HubLIVE
站内改写

从基准营销到基准优化:40年数据库评估经验给AI数据领导者的启示

本文探讨了AI领域基准测试(Benchmarketing)的现状与问题,借鉴数据库行业40年来的评估经验,建议数据领导者构建自己的评估系统,以真实工作负载而非供应商数据作为采购决策依据。

文章情报

工程师进阶

要点

  • AI基准测试被供应商用于营销,导致信任危机。
  • 数据库行业曾经历类似问题,TPC标准试图解决但最终被钻空子。
  • 数据团队应建立自定义评估,以实际工作负载筛选供应商。
  • 开源工具如ADE-BENCH可帮助快速搭建评估体系。

为什么重要

这条新闻值得关注,因为AI基准测试被供应商用于营销,导致信任危机。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

在AI浪潮席卷整个科技行业的今天,基准测试(Benchmark)已经从一个工程工具异化为供应商的营销武器。从数据库领域走来的老兵深知,这种被称为“Benchmarketing”的现象并非新鲜事——早在1980年代,Oracle、Sybase等数据库厂商就开始用自创的测试标准来证明自家产品性能最优。如今,AI领域正在以更大的规模重演这段历史。

作者以自身超过10年的数据基础设施构建经验为基础,指出当前AI供应商发布的基准测试结果对实际采购决策几乎毫无价值。这些测试往往在理想化环境中运行,甚至存在模型污染(训练数据包含测试集)等数据库时代不存在的问题。更糟糕的是,没有任何第三方中立机构像当年的TPC(事务处理性能委员会)那样来规范标准。

然而,数据库行业40年的经验已经给了我们答案:将供应商提供的基准测试仅作为初步筛选工具,然后用自己的真实工作负载来验证。具体而言,数据团队应当从生产环境中提取样本数据、编写有代表性的查询任务,而不是依赖供应商精心优化的演示。作者强调,这并非需要从零开始设计复杂的评估框架——像ADE-BENCH这样的开源项目已经提供了现成的工具,可覆盖数据团队实际面临的多重任务场景。

回顾历史,1980年代数据库厂商的基准营销战催生了TPC,但TPC最终也未能完全杜绝作弊行为,会员数量从1995年的54家降至2022年的21家,厂商通过摘取子集和规避审计重新钻了空子。Jim Gray曾指出,没有单一基准能衡量所有应用,评估必须基于客户的实际工作负载。因此,真正明智的采购流程分为两步:先用标准基准筛选具备基本能力的系统,再用自己的数据和工作负载做最终决定。

在AI领域,情况更为严峻:模型污染使得基准测试结果不可靠,甚至改变提问格式就能使准确率波动5%。目前缺乏类似TPC的中立机构,学术界主导的基准评测虽保持中立,却往往与行业需求脱节。面对这种局面,数据领导者应当借鉴数据库界的做法,放弃对供应商基准的盲目信任,转而构建自己的评估体系。

构建自评估体系并不需要从零开始。作者推荐使用ADE-BENCH——一个由dbt Labs主导的开源基准工具,专为AI数据平台任务设计,覆盖多步骤工作流而非简单的文本到SQL转换。通过加载自己数据、运行定制任务,数据团队能真实反映工具在自身环境中的表现,从而在供应商谈判中掌握主动,避免因夸大宣传而浪费预算和时间。

最终,通过建立自己的评估系统,数据领导者能够从被动接受营销信息转变为主动筛选供应商,从而在AI工具选型中做出更明智的决策,避免浪费预算和团队的时间。