從基準營銷到基準優化:40年數據庫評估經驗給AI數據領導者的啓示
本文探討了AI領域基準測試(Benchmarketing)的現狀與問題,借鑑數據庫行業40年來的評估經驗,建議數據領導者構建自己的評估系統,以真實工作負載而非供應商數據作為採購決策依據。
文章情報
要點
- AI基準測試被供應商用於營銷,導致信任危機。
- 數據庫行業曾經歷類似問題,TPC標準試圖解決但最終被鑽空子。
- 數據團隊應建立自定義評估,以實際工作負載篩選供應商。
- 開源工具如ADE-BENCH可幫助快速搭建評估體系。
為甚麼重要
這條新聞值得關注,因為AI基準測試被供應商用於營銷,導致信任危機。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在AI浪潮席捲整個科技行業的今天,基準測試(Benchmark)已經從一個工程工具異化為供應商的營銷武器。從數據庫領域走來的老兵深知,這種被稱為“Benchmarketing”的現象並非新鮮事——早在1980年代,Oracle、Sybase等數據庫廠商就開始用自創的測試標準來證明自家產品性能最優。如今,AI領域正在以更大的規模重演這段歷史。
作者以自身超過10年的數據基礎設施構建經驗為基礎,指出當前AI供應商發佈的基準測試結果對實際採購決策幾乎毫無價值。這些測試往往在理想化環境中運行,甚至存在模型污染(訓練數據包含測試集)等數據庫時代不存在的問題。更糟糕的是,沒有任何第三方中立機構像當年的TPC(事務處理性能委員會)那樣來規範標準。
然而,數據庫行業40年的經驗已經給了我們答案:將供應商提供的基準測試僅作為初步篩選工具,然後用自己的真實工作負載來驗證。具體而言,數據團隊應當從生產環境中提取樣本數據、編寫有代表性的查詢任務,而不是依賴供應商精心優化的演示。作者強調,這並非需要從零開始設計複雜的評估框架——像ADE-BENCH這樣的開源項目已經提供了現成的工具,可覆蓋數據團隊實際面臨的多重任務場景。
回顧歷史,1980年代數據庫廠商的基準營銷戰催生了TPC,但TPC最終也未能完全杜絕作弊行為,會員數量從1995年的54家降至2022年的21家,廠商通過摘取子集和規避審計重新鑽了空子。Jim Gray曾指出,沒有單一基準能衡量所有應用,評估必須基於客户的實際工作負載。因此,真正明智的採購流程分為兩步:先用標準基準篩選具備基本能力的系統,再用自己的數據和工作負載做最終決定。
在AI領域,情況更為嚴峻:模型污染使得基準測試結果不可靠,甚至改變提問格式就能使準確率波動5%。目前缺乏類似TPC的中立機構,學術界主導的基準評測雖保持中立,卻往往與行業需求脱節。面對這種局面,數據領導者應當借鑑數據庫界的做法,放棄對供應商基準的盲目信任,轉而構建自己的評估體系。
構建自評估體系並不需要從零開始。作者推薦使用ADE-BENCH——一個由dbt Labs主導的開源基準工具,專為AI數據平台任務設計,覆蓋多步驟工作流而非簡單的文本到SQL轉換。通過加載自己數據、運行定製任務,數據團隊能真實反映工具在自身環境中的表現,從而在供應商談判中掌握主動,避免因誇大宣傳而浪費預算和時間。
最終,通過建立自己的評估系統,數據領導者能夠從被動接受營銷信息轉變為主動篩選供應商,從而在AI工具選型中做出更明智的決策,避免浪費預算和團隊的時間。