AI News HubLIVE
站內改寫2 分鐘閱讀

新論文:邁向AI智慧體可靠性的科學

研究者提出了一個衡量AI智慧體可靠性的框架,將可靠性分解為12個維度,並發現儘管能力提升迅速,但可靠性進展緩慢。該研究呼籲行業將可靠性作為獨立維度進行最佳化。

來源AI Snake Oil作者: Sayash Kapoor

一篇由普林斯頓大學Stephan Rabanser、Sayash Kapoor和Arvind Narayanan等人撰寫的新論文,對AI智慧體的可靠性進行了系統性的量化研究。該研究借鑑了核能和航空等安全關鍵工程領域的經驗,將可靠性分解為12個不同的指標,涵蓋四個主要維度:一致性(同一任務多次執行的結果是否穩定)、魯棒性(面對條件變化或故障時是否仍能正常運作)、可預測性(智慧體是否知道自己何時可能出錯)以及安全性(錯誤是否可控而非災難性)。

研究團隊測試了來自OpenAI、Google和Anthropic的14個模型,覆蓋18個月內的版本迭代,使用通用助手基準GAIA和客戶服務模擬基準TauBench進行評估。每個任務重複五次,並注入工具故障和環境變化以測試魯棒性。總計執行了500次基準測試。

結果顯示,在18個月間,模型的準確性顯著提升,但可靠性改善甚微。所有三大提供商的模型表現相近,表明這是一個行業範圍的侷限性。具體而言,一致性得分在30%到75%之間波動,許多模型在重複相同任務時失敗;魯棒性方面,模型能處理技術故障,但指令語義相同僅措辭變化時,效能大幅下降;可預測性是最弱的維度,大多數模型無法有效區分正確和錯誤的預測;安全性方面,較新模型在避免違反約束上有所改進,但財務錯誤等常見問題依然存在。

論文指出,當前AI行業缺乏衡量可靠性的有效工具,甚至缺乏統一的定義。研究者呼籲,在報告準確性之外,應同時提供可靠性概況。對於部署者,建議明確區分自動化和增強應用:自動化工具(如無人值守工作流、客戶互動機器人)需滿足可靠性閾值,而增強工具(如程式設計助手)因有人類監督,可靠性要求可適當放寬。

儘管研究存在侷限性,如維度定義的主觀性,以及未來可能透過更高的準確性彌補可靠性不足,但作者認為,在自主操作的高風險場景中,需要99.9%至99.999%的準確率才能忽略可靠性問題,而當前基於LLM的智慧體遠未達到這一水平。論文還提出,能力-可靠性差距可能是AI智慧體經濟影響緩慢的原因之一。要推動廣泛部署,需要針對可靠性的各個維度進行專門最佳化,而非單純依賴模型規模擴大或通用訓練方法。該研究是“AI智慧體評估科學”系列的一部分,相關程式碼和互動式儀表盤已公開。