面向金融合規的生產級AI代理:來自Stripe的經驗教訓
Stripe每年處理1.4萬億美元支付量,通過基於Amazon Bedrock的ReAct代理框架,將合規審查處理時間減少26%,同時保持人工監督。本文介紹其技術架構、基礎設施決策以及部署AI代理的經驗教訓,包括任務分解、編排模式和通過提示緩存優化成本。
Stripe作為全球支付基礎設施的領導者,每年處理約1.4萬億美元的交易量,橫跨50個國家,這相當於全球GDP的約1.3%。如此龐大的規模帶來了巨大的合規挑戰:每天有數千筆交易需要審查,而人工分析員花費高達80%的時間在碎片化的系統中搜集文件,而非進行高價值的風險評估。
為了解決這一問題,Stripe在AWS上基於Amazon Bedrock構建了一套生產級的AI代理系統。該系統採用ReAct(推理與行動)代理框架,將複雜的合規審查分解為多個可組合的子任務,每個子任務形成一個有向無環圖(DAG)。這種分解方式不僅讓代理專注於特定問題,還確保了審查的全面性和可審計性。Stripe的合規審查流程基於三個支柱:監督與問責、透明度和效率。監督與問責意味着人類始終處於駕駛位置,配置可審批的工作流和多層決策檢查點。透明度要求每一步行動、決策和理由都有不可篡改的審計跟蹤。效率通過預調查和動態分析實現更深入的審查。
在實際應用中,AI代理並不直接做出最終決定,而是為人類審查員提供預調查的研究結果。審查員在工具中逐一回答子問題,代理的回答作為補充信息,但仍由人類掌握最終決策權。這種設計實現了96%以上的有用性評級,同時保持了必要的監督和問責。
在ReAct框架中,代理在每次思考後可以調用工具獲取數據,然後處理觀測結果。這形成了一個閉環控制系統,防止幻覺和推理偏離。為了處理長上下文,Stripe採用子任務分解限制交互輪次,並使用Amazon Bedrock的提示緩存降低輸入令牌成本。
技術架構上,Stripe構建了專用的代理服務來處理代理邏輯,這與傳統的機器學習推理引擎截然不同。代理應用主要是網絡密集型,等待模型響應和工具調用,而非計算密集型。此外,Stripe還開發了LLM代理微服務,提供統一的API接口、模型降級和監控功能,避免了多團隊間的資源爭用。LLM代理解決了噪聲鄰居問題,提供單一API訪問多種模型,並支持自動降級。
整個系統從最初寥寥幾個代理迅速增長到超過100個代理,覆蓋了多種合規場景。Stripe的經驗表明,通過合理的任務分解、人工監督和專用基礎設施,AI代理能夠有效擴展合規操作,同時保證質量和可審計性。這一方法為金融行業應對全球2060億美元的合規負擔提供了可借鑑的路徑。