2026-02-24 21:07 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

新論文：邁向AI智慧體可靠性的科學

研究者提出了一個衡量AI智慧體可靠性的框架，將可靠性分解為12個維度，並發現儘管能力提升迅速，但可靠性進展緩慢。該研究呼籲行業將可靠性作為獨立維度進行最佳化。

來源AI Snake Oil作者: Sayash Kapoor

一篇由普林斯頓大學Stephan Rabanser、Sayash Kapoor和Arvind Narayanan等人撰寫的新論文，對AI智慧體的可靠性進行了系統性的量化研究。該研究借鑑了核能和航空等安全關鍵工程領域的經驗，將可靠性分解為12個不同的指標，涵蓋四個主要維度：一致性（同一任務多次執行的結果是否穩定）、魯棒性（面對條件變化或故障時是否仍能正常運作）、可預測性（智慧體是否知道自己何時可能出錯）以及安全性（錯誤是否可控而非災難性）。

研究團隊測試了來自OpenAI、Google和Anthropic的14個模型，覆蓋18個月內的版本迭代，使用通用助手基準GAIA和客戶服務模擬基準TauBench進行評估。每個任務重複五次，並注入工具故障和環境變化以測試魯棒性。總計執行了500次基準測試。

結果顯示，在18個月間，模型的準確性顯著提升，但可靠性改善甚微。所有三大提供商的模型表現相近，表明這是一個行業範圍的侷限性。具體而言，一致性得分在30%到75%之間波動，許多模型在重複相同任務時失敗；魯棒性方面，模型能處理技術故障，但指令語義相同僅措辭變化時，效能大幅下降；可預測性是最弱的維度，大多數模型無法有效區分正確和錯誤的預測；安全性方面，較新模型在避免違反約束上有所改進，但財務錯誤等常見問題依然存在。

論文指出，當前AI行業缺乏衡量可靠性的有效工具，甚至缺乏統一的定義。研究者呼籲，在報告準確性之外，應同時提供可靠性概況。對於部署者，建議明確區分自動化和增強應用：自動化工具（如無人值守工作流、客戶互動機器人）需滿足可靠性閾值，而增強工具（如程式設計助手）因有人類監督，可靠性要求可適當放寬。

儘管研究存在侷限性，如維度定義的主觀性，以及未來可能透過更高的準確性彌補可靠性不足，但作者認為，在自主操作的高風險場景中，需要99.9%至99.999%的準確率才能忽略可靠性問題，而當前基於LLM的智慧體遠未達到這一水平。論文還提出，能力-可靠性差距可能是AI智慧體經濟影響緩慢的原因之一。要推動廣泛部署，需要針對可靠性的各個維度進行專門最佳化，而非單純依賴模型規模擴大或通用訓練方法。該研究是“AI智慧體評估科學”系列的一部分，相關程式碼和互動式儀表盤已公開。