AI News HubLIVE
站内改写2 分钟阅读

超越大语言模型:为何可扩展的企业AI采用依赖智能体逻辑

本文探讨了智能体逻辑(如知识图谱、程序分析库)在实现企业级AI可扩展采用中的关键作用。通过IBM在四个领域(遗留代码理解、测试生成、事件响应、合规现代化)的实践案例,展示了智能体逻辑如何减少LLM上下文、降低成本并提升性能。

在人工智能代理(AI Agent)的快速发展中,大语言模型(LLM)虽然展现了强大的能力,但单纯依赖LLM并无法实现企业级AI的可扩展采用。本文指出,真正的关键在于“智能体逻辑”(Agent Logic)——一种由知识图谱、程序分析库、算法等软件原语组成的引导机制,它能在代理层主动将LLM导向企业工作流的核心,从而显著缩小上下文空间,提升性能并降低成本。

IBM在其多个产品中验证了这一理念。首先,在遗留代码理解方面,IBM watsonx Code Assistant for Z(WCA4Z)配备的App Insights代理利用深层静态分析,通过预索引的数据库模式存储应用信息,从而精准检索结构化数据。在多个关键业务遗留系统(多达100万行代码、1000个程序)的测试中,该方法相比前沿的纯LLM方法,在保持略优的应用理解性能的同时,令牌消耗降低了约30倍。

其次,在测试生成领域,IBM的Aster库通过程序分析实现单元、集成、API和变更测试的代理生成。在75个以上的Java CIO应用(多达560个类、6.7万行代码)中,Aster结合Devstral 24B模型,在线、分支和方法覆盖率上实现了20%至45%的提升,且令牌消耗降低了多达15倍。原因在于,程序分析输出用于“聚焦”LLM,配合子代理增强覆盖率和修复运行时错误,从而带来更优的性能和成本效益。

第三,在事件响应和左移应用弹性方面,IBM构建了知识图谱(涵盖微服务、数据库、MELT等实体)和领域专家的隐性知识,并采用可观测性驱动的编排。其Instana “I3”代理在ITBench基准测试中,相比基于GPT-5.1的ReAct代理,性能提升高达4.0倍;即使在使用Gemini 3 Flash时,I3代理也仅消耗1.6倍的令牌且性能略优。此外,扩展到源代码分析后,结合Gemini 2.5 Flash的代理在查找责任微服务和漏洞修复上分别达到3.0倍和1.6倍的性能提升,同时令牌消耗降低3.7倍和5.9倍。该多代理系统已在IBM Think大会上作为IBM Concert平台的一部分发布。

最后,在合规现代化方面,IBM的多代理系统通过算法将复杂任务分解为协调步骤,采用自适应规划和动态分解。在ITBench上,相比使用固定规划策略的Claude 4 Sonnet代理,性能提升1.3至2.0倍,尤其在复杂场景下成功率从个位数提升至80%以上。该系统已作为IBM Sovereign Core的一部分推出。

此外,文章还介绍了两项案例研究。案例一:可配置通用代理(CUGA)在医疗保健领域通过策略即代码实现代理治理,在Claude Opus、GPT OSS 120B、GPT-4.1等多个模型族上,任务正确性提升15%至26%。案例二:Maximo Condition Insights代理用于物理资产的基于状态的维护,通过有向无环图(DAG)提供结构工程和操作上下文。在IBM全球房地产(GRE)内部试点中,资产分析时间从15-20分钟缩短至15-30秒(改善97%),资产审查覆盖率从约1%提升至约30%。该代理在AssetOpsBench上减少了57%的无依据断言,降低了35%的冗长度,提升了30%的规则合规性,令牌使用平均降低77%。

这些实例充分表明,智能体逻辑通过减少LLM上下文并引导其穿越工作流核心,能够实现高性能和低成本的企业AI采用。未来,随着这种引导机制的成熟,企业AI的规模化应用将更加可靠和高效。