AI代理為何被取消(以及它們悄然失敗的5個地方)
AI代理的失敗往往不是模型本身的問題,而是系統運營的缺陷。本文探討了五個關鍵失敗點:評估、可觀測性、可逆性、自主邊界和運營漂移,並強調代理需要像真實系統一樣被運維。
2025年7月,一個AI編碼代理刪除了一個生產資料庫。當時正處於明確的程式碼凍結期,並且該代理被明確告知不要碰這個系統。隨後,它告訴工程師回滾是不可能的——這個說法也是錯誤的。資料最終恢復了。代理事後的總結值得銘記:“這是我的一次災難性失敗。我在幾秒鐘內摧毀了數月的工作。”
這個故事很容易被解讀為模型尚未準備好的案例。但我認為這種看法是錯誤的,而且誤判的代價高昂。模型並不缺乏智慧。它缺乏的是一個本應使破壞性行為不可能的邊界,一個本應強制執行而非請求的開發與生產分離機制,以及一個值得信賴的操作記錄。這些都不是模型的屬性,而是圍繞它的系統的屬性。
這一點之所以重要,是因為失敗正在成為一種模式,而這種模式正被誤診。Gartner預測,到2027年底,超過40%的代理式AI專案將被取消。MIT的Project NANDA發現,大約95%的企業生成式AI試點對底線沒有產生可衡量的影響。標普全球報告稱,公司在投產前放棄大部分AI舉措的比例從17%上升到了42%。
快速瀏覽這些數字,聽起來像是給模型判了死刑。但仔細閱讀,它們主要是對運營的判決。Gartner列出的原因是成本不斷上升、業務價值不明確以及風險控制不足。MIT將其稱為學習差距:工具無法保留反饋或隨時間改進。這些都不是對模型質量的抱怨。它們描述的是系統在沒有使任何生產系統存活所需的部件的情況下就上線了。
我想在這裡小心謹慎,因為“管道”論點可能被過度延伸。其中一些專案失敗的原因與可靠性工程無關:資料差、需求不明確、從未有意義的用例、不願改變工作方式的組織。這些都是真實的問題,但並非本文的重點。本文關注的是那些可以透過我們已經擁有的技術來預防的失敗,只是這些技術被應用到了我們決定視為新事物的東西上。
生產代理悄然失敗的五個地方,沒有一個是不尋常的。
首先是評估。大多數團隊無法自動判斷代理的輸出是好是壞。因此,質量回歸上線了,第一個訊號是客戶。加拿大航空的網站聊天機器人告訴一名悲痛欲絕的乘客,他可以追溯申請喪親票價,而這並非航空公司的政策。仲裁庭裁定航空公司承擔責任,並駁回了其關於聊天機器人是獨立實體、應對自身行為負責的論點。損失不大,但先例不小。沒有任何自動檢查來驗證機器人的回答是否符合其所應代表的政策。正如Hamel Husain所言,不成功的AI產品幾乎總有一個共同的根本原因:缺乏一種可靠的評估方式。
第二是可觀測性。你無法修復你看不到的東西,而大多數代理是盲目執行的。Klarna在2024年初宣佈,其AI助理完成了700名代理的工作,並在兩分鐘內解決了工單。但到2025年,該公司重新開始招聘人員,其CEO承認,對效率的關注導致了不可持續的低質量。顯示解決率和處理時間的儀表盤是真實的。但它們是一個平均值,而平均值隱藏了分佈。困難的工單、情感化的工單、決定客戶是否留下的工單,在沒有指標指向的地方逐漸惡化。Honeycomb的Phillip Carter將LLM描述為不可預測的黑盒,用於你無法提前預測的方式,如果你對產品在生產中的行為負責,這應該讓你害怕。那些保持代理執行的團隊將它們視為分散式系統,並對每一步進行檢測。
第三是可逆性。七月份的資料庫刪除是一個清晰的例子,但它有一個更早的孿生兄弟。2012年,Knight Capital將新程式碼部署到七臺伺服器上,啟用了第八臺伺服器上的休眠邏輯,並在45分鐘內損失了超過4.6億美元。沒有自動的部署後檢查,也沒有業務層的終止開關。十三年間,儘管技術發生了變化,但教訓是一樣的:以機器速度進行不可逆的操作,沒有停止的方法,也沒有人關注正確的數字,這是一種設計為代價高昂的失敗的系統。可逆性不是後來新增的功能。它包括回滾、冪等工具呼叫、有界重試以及在任何無法撤銷的操作前設定的門禁。
第四是自主邊界。代理應該能夠執行一組已知的、列舉的事情,並且當它超出能力範圍時,應該有明確的方式拒絕或升級。一家汽車經銷商的聊天機器人被說服同意以1美元出售一輛雪佛蘭Tahoe,用客戶的話說,“不準反悔”。Cursor的支援代理為了解釋一個錯誤,編造了一個不存在的訂閱政策,導致使用者取消訂閱。這兩個失敗都不需要更智慧的模型。它們都需要一個限制。提示注入連續第二版位列OWASP LLM應用十大風險之首,這再次說明,系統提示不是一個安全邊界,也永遠不會是。
第五是運營漂移。今天有效的代理不一定在下個季度仍然有效,因為輸入變化、模型更新、上下文隨之變化。DPD的聊天機器人在一次例行系統更新後,被激怒辱罵客戶,並寫了一首關於自己公司多麼無用的詩。紐約市的官方商務聊天機器人自信地給出了違法的建議,告訴使用者房東可以拒絕住房券,企業可以無現金運營。兩者都沒有定期重新評估,沒有在客戶之前捕捉行為變化的門禁,也沒有一個負責長期可靠性的人。
值得為反對所有這些觀點提出有力辯護,因為有兩個反對意見是好的。第一個是模型改進如此之快,以至於可靠性層將被吸收到模型中。這有一定道理;每一代模型的幻覺更少,指令遵循更好。但可逆性、冪等性、範圍許可權、審計跟蹤和人工檢查點是圍繞模型的系統的屬性,而不是模型本身。更智慧的代理仍然不應該對你的生產資料庫擁有無限制的寫許可權。可靠性層正是那些不是模型的部分。第二個反對意見是評估是作秀。這是最尖銳的反對意見,而且部分正確:糟糕的評估製造虛假信心,比沒有信心更糟糕。綠色的測試套件是快照,而生產是流。但糟糕評估的答案是良好評估加上可觀測性,而不是兩者都缺席。基於真實失敗構建的領域特定檢查、根據人工審查校準的判斷器、從生產軌跡中重新整理的評估集。評估和可觀測性是互補的,將它們視為同一回事才是真正的錯誤。
如果你懷疑痛苦的現實,可以跟著錢走。現在有一個資金充足的創業公司類別,它們存在的目的就是銷售這些管道。Braintrust以8億美元的估值融資,LangChain超過10億美元,Arize、Langfuse、Galileo、Patronus以及主要的可觀測性供應商都在為代理構建評估和追蹤產品。資本不是正確性的證明。但數億美元流向一個論點——生產中的代理必須像真實系統一樣被測試和監控——強烈表明問題實際上在哪裡。
結論不是代理太危險而不能上線。它更狹義且更有用。代理是一個恰好是機率性的生產系統,它必須像真實系統一樣被運營:由指定人員擁有,每次執行可觀測,出錯時可逆,在能力範圍內受限,並隨著周圍世界的變化而重新評估。在存活的少數團隊中,他們並非擁有更好的模型。每個人擁有的模型大致相同。他們是運營得更好的人。這就是全部的區別,也是你所能控制的部分。