超越大語言模型:為何可擴充套件的企業AI採用依賴智慧體邏輯
本文探討了智慧體邏輯(如知識圖譜、程式分析庫)在實現企業級AI可擴充套件采用中的關鍵作用。透過IBM在四個領域(遺留程式碼理解、測試生成、事件響應、合規現代化)的實踐案例,展示了智慧體邏輯如何減少LLM上下文、降低成本並提升效能。
在人工智慧代理(AI Agent)的快速發展中,大語言模型(LLM)雖然展現了強大的能力,但單純依賴LLM並無法實現企業級AI的可擴充套件采用。本文指出,真正的關鍵在於“智慧體邏輯”(Agent Logic)——一種由知識圖譜、程式分析庫、演算法等軟體原語組成的引導機制,它能在代理層主動將LLM導向企業工作流的核心,從而顯著縮小上下文空間,提升效能並降低成本。
IBM在其多個產品中驗證了這一理念。首先,在遺留程式碼理解方面,IBM watsonx Code Assistant for Z(WCA4Z)配備的App Insights代理利用深層靜態分析,透過預索引的資料庫模式儲存應用資訊,從而精準檢索結構化資料。在多個關鍵業務遺留系統(多達100萬行程式碼、1000個程式)的測試中,該方法相比前沿的純LLM方法,在保持略優的應用理解效能的同時,令牌消耗降低了約30倍。
其次,在測試生成領域,IBM的Aster庫透過程式分析實現單元、整合、API和變更測試的代理生成。在75個以上的Java CIO應用(多達560個類、6.7萬行程式碼)中,Aster結合Devstral 24B模型,線上、分支和方法覆蓋率上實現了20%至45%的提升,且令牌消耗降低了多達15倍。原因在於,程式分析輸出用於“聚焦”LLM,配合子代理增強覆蓋率和修復執行時錯誤,從而帶來更優的效能和成本效益。
第三,在事件響應和左移應用彈性方面,IBM構建了知識圖譜(涵蓋微服務、資料庫、MELT等實體)和領域專家的隱性知識,並採用可觀測性驅動的編排。其Instana “I3”代理在ITBench基準測試中,相比基於GPT-5.1的ReAct代理,效能提升高達4.0倍;即使在使用Gemini 3 Flash時,I3代理也僅消耗1.6倍的令牌且效能略優。此外,擴充套件到原始碼分析後,結合Gemini 2.5 Flash的代理在查詢責任微服務和漏洞修復上分別達到3.0倍和1.6倍的效能提升,同時令牌消耗降低3.7倍和5.9倍。該多代理系統已在IBM Think大會上作為IBM Concert平臺的一部分發布。
最後,在合規現代化方面,IBM的多代理系統透過演算法將複雜任務分解為協調步驟,採用自適應規劃和動態分解。在ITBench上,相比使用固定規劃策略的Claude 4 Sonnet代理,效能提升1.3至2.0倍,尤其在複雜場景下成功率從個位數提升至80%以上。該系統已作為IBM Sovereign Core的一部分推出。
此外,文章還介紹了兩項案例研究。案例一:可配置通用代理(CUGA)在醫療保健領域透過策略即程式碼實現代理治理,在Claude Opus、GPT OSS 120B、GPT-4.1等多個模型族上,任務正確性提升15%至26%。案例二:Maximo Condition Insights代理用於物理資產的基於狀態的維護,透過有向無環圖(DAG)提供結構工程和操作上下文。在IBM全球房地產(GRE)內部試點中,資產分析時間從15-20分鐘縮短至15-30秒(改善97%),資產審查覆蓋率從約1%提升至約30%。該代理在AssetOpsBench上減少了57%的無依據斷言,降低了35%的冗長度,提升了30%的規則合規性,令牌使用平均降低77%。
這些例項充分表明,智慧體邏輯透過減少LLM上下文並引導其穿越工作流核心,能夠實現高效能和低成本的企業AI採用。未來,隨著這種引導機制的成熟,企業AI的規模化應用將更加可靠和高效。